大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高 速)、Variety(多样)、Value(价值),对于大数据的分析处理,需要有专门设计的硬件和软件工具进行专业化处理,大数据经过收集再到清洗计算 挖掘再到展现和利用,每一步可用的工具都不同,下面我们就来扒一扒大数据领域一些实用工具吧。免费好用的像八爪鱼采集类似的工具也会推荐哦,借用当下的某 名言,你若有用,我便免费到底!
1、 收集工具
由于大数据数据集的体量非常巨大高达EB级,而数据源来来自于各种公开信息、传感器、气候等各种渠道,以互联网渠道举例,网站公开信息、交易记录、 评价信息、网络日志、视频、事监控、大型电子商务、门户信息或垂直媒体等各种渠道。像八爪鱼采集器也是新一代采集技术的大数据收集工具,除此以外,数据源 收集这块目前比较常见的工具有:
scraperWIKI(可从多种数据源获取数据,生成自定义视图)
needlebase(可编写代码自动化抓取公开网站)
bazhuayu(可抓取超过98%的网页数据及60%的移动端数据)
2、 数据处理
Hadoop (能够对大量数据进行分布式处理的软件框架,具有高可靠性、高扩展性、高效性和高容错性)
Storm(分布式实时计算系统,开源系统,支持多种编程语言,可处理Hadoop的批量数据)
Apache Drill(有助于Hadoop用户实现更快查询海量数据集)
RapidMiner(分布式数据挖掘,免费提供数据挖掘技术和库,支持JAVA代码)
3、 数据存储(计算)
NoSql 数据库 – MongoDB, Cassandra, Hbase
SQL 数据库 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB
4、 数据清洗
DataWrangler(基于网络服务的可视化组数据清洗和重排工具,文本编辑简单,但不适合商业或敏感信息处理)
Google Refine(支持多种格式数据的聚类分析,无电子表格计算功能)
OpenRefine (交互数据转换工具,可对新的行数据进行编码)
5、 数据分析
Jaspersoft(报告和分析服务器)
Pentaho(数据集成和业务分析)
Splunk(IT分析平台)
Talend(大数据集成,数据管理和应用集成)
6、展现工具
可视化展现工具
EXCEL/ CSV/JSON(很对企业人员均会用到的数据分析工具)
Google Chart API(动态图标工具,须支持JavaScript的设备上使用)
Flot(线框图表库,支持所有支持canvas的浏览器)
D3(支持SVG渲染的另一种JavaScript库,提供大量线性图和条形图之外的复杂图表样式)
Processing(数据可视化的招牌工具,编写简单的代码即可编译成JAVA)
FUSION TABLES(可根据地理位置可视化数据)
Gephi(进行社交图谱数据可视化分析的常用工具)
R(大数据预测分析工具)
Modest Maps(本身的地图库较小,但是配合WAX等扩展库很强大)
OpenLayers(可靠性高的地图库)
除了上述介绍的一些工具外,每个类别还有很多其他的工具可实现,有兴趣的朋友可以进一步去了解。