大数据技术

大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高 速)、Variety(多样)、Value(价值),对于大数据的分析处理,需要有专门设计的硬件和软件工具进行专业化处理,大数据经过收集再到清洗计算 挖掘再到展现和利用,每一步可用的工具都不同,下面我们就来扒一扒大数据领域一些实用工具吧。免费好用的像八爪鱼采集类似的工具也会推荐哦,借用当下的某 名言,你若有用,我便免费到底!

1、  收集工具

由于大数据数据集的体量非常巨大高达EB级,而数据源来来自于各种公开信息、传感器、气候等各种渠道,以互联网渠道举例,网站公开信息、交易记录、 评价信息、网络日志、视频、事监控、大型电子商务、门户信息或垂直媒体等各种渠道。像八爪鱼采集器也是新一代采集技术的大数据收集工具,除此以外,数据源 收集这块目前比较常见的工具有:

scraperWIKI(可从多种数据源获取数据,生成自定义视图)

needlebase(可编写代码自动化抓取公开网站)

bazhuayu(可抓取超过98%的网页数据及60%的移动端数据)

2、  数据处理

Hadoop (能够对大量数据进行分布式处理的软件框架,具有高可靠性、高扩展性、高效性和高容错性)

Storm(分布式实时计算系统,开源系统,支持多种编程语言,可处理Hadoop的批量数据)

Apache Drill(有助于Hadoop用户实现更快查询海量数据集)

RapidMiner(分布式数据挖掘,免费提供数据挖掘技术和库,支持JAVA代码)

3、  数据存储(计算)

Apache Hadoop

NoSql 数据库 – MongoDB, Cassandra, Hbase

SQL 数据库 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB

4、  数据清洗

DataWrangler(基于网络服务的可视化组数据清洗和重排工具,文本编辑简单,但不适合商业或敏感信息处理)

Google Refine(支持多种格式数据的聚类分析,无电子表格计算功能)

OpenRefine (交互数据转换工具,可对新的行数据进行编码)

5、  数据分析

Jaspersoft(报告和分析服务器)

Pentaho(数据集成和业务分析)

Splunk(IT分析平台)

Talend(大数据集成,数据管理和应用集成)

6、展现工具

可视化展现工具

EXCEL/ CSV/JSON(很对企业人员均会用到的数据分析工具)

Google Chart API(动态图标工具,须支持JavaScript的设备上使用)

Flot(线框图表库,支持所有支持canvas的浏览器

D3(支持SVG渲染的另一种JavaScript库,提供大量线性图和条形图之外的复杂图表样式)

Processing(数据可视化的招牌工具,编写简单的代码即可编译成JAVA)

FUSION TABLES(可根据地理位置可视化数据)

Gephi(进行社交图谱数据可视化分析的常用工具)

SPSSSAS

R(大数据预测分析工具)

Modest Maps(本身的地图库较小,但是配合WAX等扩展库很强大)

OpenLayers(可靠性高的地图库)

除了上述介绍的一些工具外,每个类别还有很多其他的工具可实现,有兴趣的朋友可以进一步去了解。

时间: 2024-10-07 05:49:58

大数据技术的相关文章

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

浅谈大数据技术

忽如一夜春风来,无人不谈大数据.大数据就像前两年的云计算一样,是一个时下被炒得很火的概念.那么什么是大数据,大数据是如何定义的,大数据处理技术有哪些,大数据能给我们带来什么益处?虽然我不知道现在这些概念是如何被炒作的,但是作为一名互联网行业的从业者,作为一个大数据技术的实践者,根据自己的理解和经验发表一点浅显的认识,理解肯定有不到位之处请大家批评指正. 无论是大数据技术还是云计算技术,其实这些技术都不是突然冒出来的,而是随着互联网技术的发展,人们把现有的技术加以整合,总结,概括出来并冠一个新名字

京东基于大数据技术的个性化电商搜索引擎

介绍京东个性化搜索引擎应用场景,和如何利用大数据技术实现个性化搜索.京东个性化场景包括基于行为.偏好.地域.时间.好友关系等维度,其中偏好是个性化搜索重点考虑的内容,分享会介绍搜索如何应用长期偏好.实时偏好以及偏好在不同的平台(web.移动.微信/手Q)起到的作用.在实现个性化搜索当中会分享京东搜索在解决个性化过程中遇到的问题.使用的技术.以及经验和思考. 原文:http://www.infoq.com/cn/presentations/jingdong-personalized-search-

大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2016)将在北京新云南皇冠假日酒店隆重举办. 图片描述 中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(Hadoop in China,HiC).从2008年仅60余人参加的技术沙龙到当下数千人的技术盛宴,目前已成为国内最具影响力.规模

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

下载基于大数据技术推荐系统实战教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

地址:http://pan.baidu.com/s/1c2tOtwc  密码:yn2r 82课高清完整版,转一播放码. 互联网行业是大数据应用最前沿的阵地,目前主流的大数据技术,包括 hadoop,spark等,全部来自于一线互联网公司.从应用角度讲,大数据在互联网领域主要有三类应用:搜索引擎(比如百度,谷歌等),广告系统(比如百度凤巢,阿里妈妈等)和推荐系统(比如阿里巴巴天猫推荐,优酷视频推荐等). 本次培训以商业实战项目作为驱动来学习大数据技术在推荐系统项目中的应用.使得学员能够亲身体会大数

首届中国大数据技术沙龙会议

当今最红的名词是大数据,掌握趋势,才能赢得未来!首届中国大数据技术沙龙会议暨超人学院技术交流会,邀请各位前来参会.在这里,你可以了解大数据技术的趋势,掌握企业对于技术的最新动态,学习和分享你在工作中的经验及问题,你可以分享也可以提问,让你掌握大数据最前沿的技术.奔跑吧,兄弟!赶快报名参加!更多精彩内容抢先看!

大数据技术 vs 数据库一体机[转]

http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html 目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别.这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系数据库)技术对比如下: 硬件架构 从本质上来讲,两者的硬件架构基本相同,都是采用x86服务器集群的分布式并行模式来应对大规模的数据与计算.但是,数据库一体机的商家大都会对硬件体系进行面向产品化的.系

痛客平台大数据技术助推贵阳“一企一策”

痛客平台大数据技术助推贵阳"一企一策" 当前中国,正在实施供给侧结构性改革,将经济增长动力点由消费者需求回归于企业方的供给.在这样的背景下,贵州省贵阳市正在实施"一企一策"工作.针对贵阳市的工业领域企业,开展相关企业的转型升级工作,落实国家供给侧结构性改革. "一企一策"工作旨在明确企业转型升级的重点方向,编制转型升级方案.而痛客平台致力于用众包方式解决各行业企业痛点,突破技术瓶颈.引领企业升级.在供给侧结构性改革的大背景下,痛客平台与"

超人学院Hadoop大数据技术分享

超人学院Hadoop大数据技术分享 Docker从入门到实践 http://yunpan.cn/cQJeEIPQxDzh5 (提取码:a4e9) 更多精彩内容请关注:http://bbs.superwu.cn 关注超人学院微信二维码: