大数据生态开源工具

1. Flume:日志收集软件,里面的重要概念是agent,包括 source -> channel -> slink,sourc,slink 可以为hdfs,jdbc ... 一个简单的场景是用Flume监测一个文件夹fdir的数据变化,这时fdir就是source,并将变化传送到hdfs_path上,hdfs_path就是slink。

2. Sqoop:主要用于hadoop data(hdfs/hive/hbase)和 structured database(relational database)之间的 data export/import,比如 Hive->mysql,mysql->HBase。

3. ZooKeeper:现在大多的数据存储,server都以集群的形式出现。Zookeeper就是协调集群一致性问题。还没看懂~~

4. Hive:是个数据仓库,适用于全表查询的一些操作。Hive本身不存储数据,其本身依赖于HDFS和MapReduce,其将HDFS上的结构化文件映射为一张逻辑数据表。

5. HBase:是个数据库,可以建索引。

6. Pig:数据流编程语言,提供了比MapReduce更丰富的API操作,比如join。

时间: 2024-09-30 04:29:07

大数据生态开源工具的相关文章

追本溯源 解析“大数据生态环境”发展现状(CSDN)

程学旗先生是中科院计算所副总工.研究员.博士生导师.网络科学与技术重点实验室主任.本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享.大数据的发展越来越快,但是对于大数据的认知大都还停留在最初的阶段——大数据是一类资源.一类工具,其实“大数据”更多的体现的是一个认知和思维,是一种战略.认知和文化. 以下为分享实录全文: 一年多来,通过组织中国大数据技术大会.CCF大数据学术会议以及各类大大小小的应用峰会与学术论坛,结合我们科学院网络数据科学与技术重点实验室所承担的与大数据相关的重大基础课

大数据为开源情报注入新力量

2013年11月,<纽约客>发表了介绍艾略特?希金斯的文章,他的另一个被大众所熟知的名字叫布朗?摩西,在微博上有一万七千个粉丝,是一位肄业的金融管理工作者.艾略特?希金斯的例子证明了,在一个人们每天依赖于来自网络传播而来的海量信息的时代,一切皆可发生. <纽约客>利用八页来描述希金斯为"也许是(叙利亚)战争中最重要的弹药专家," 对于一个在弹药和情报学没有接受过任何专业训练的人来说,这是一个相当高的评价. 希金斯不会说阿拉伯语,从未去过中东地区.他在莱斯特的家里

从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需求数据岗位. 大公司暂且不论,他们一切都走在前头.那么,对于中小型企业来说,开始尝试以数据的思维去思考问题,开始涉足大数据领域,这就是一个从0到1的过程了. 有(bu)幸(xing),近半年来,我亲自见证以及亲身体会到了这个过程,或者至今仍然在完善1这个过程中.期间,有痛苦有坑.有喜悦有成功.有沉静

大数据生态之 ——HDFS

大数据生态之-----HDFS HDFS工作机制 客户端上传文件时,一方面由datanode存储文件内容,另一方面有namenode负责管理block信息(切块大小,副本数量,位于datanode上的位置信息) 一丶namenode的工作职责: 记录元数据 a) 文件的路径 b) 文件的副本数量 c) 文件切块大小 d) block块信息 e) block块的位置信息 2. 响应客户端请求 3. 平衡datanode上block文件块的存储负载 datanode启动后会向namenode汇报自身

大数据生态之数据处理框架探索

数据处理框架 数据处理是一个非常宽泛的概念,数据处理框架在数据架构中,主要是用于数据移动和分析这两大功能当中.对于数据移动,有离线数据移动和实时数据移动,也可以叫做是批量数据移动和流式数据移动.而对于分析这一块,有离线数据分析和实时数据分析,也可以称作是批量数据分析和流式数据分析.离线和实时,批量和流式,针对这两种不同的形式,就出现了多种不同的数据处理框架.有批量的数据处理框架,有流式的数据处理框架,也有批流融合的框架. 批量数据处理框架 批量数据处理框架最经典的就是 mapreduce 了,这

55个最实用大数据可视化分析工具

该文转自[IT168 技术] 近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取.归纳并简单的展现.传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息.新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集.筛选.分析.归纳.展现决策者所需要的信息,并根据新增的数据进行实时更新.因此,在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具必须适应大数据时代数

盘点最实用的大数据可视化分析工具(1/4)

俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性:我们还需要跨学科的团队,而不是单个数据科学家.设计师或数据分析员:我们更需要重新思考我们所知道的数据可视化,图表和图形还只能在一个或两个维度上传递信息, 那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?此时就需要倚仗大数据可视化(BDV)工具,因此,笔者收集了适合各个平台各种行业的多个图表和报表工具,这些工具中不乏有适用于NET.

55个最实用的大数据可视化分析工具

俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性:我们还需要跨学科的团队,而不是单个数据科学家.设计师或数据分析员:我们更需要重新思考我们所知道的数据可视化,图表和图形还只能在一个或两个维度上传递信息, 那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?此时就需要倚仗大数据可视化(BDV)工具,因此,笔者收集了适合各个平台各种行业的多个图表和报表工具,这些工具中不乏有适用于NET.

最实用的大数据可视化分析工具汇总(3/4)

一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化.这些工具中不乏有适用于.NET.Java.Flash.HTML5.Flex等平台的,也不乏有适用于常规图表报表.甘特图.流程图.金融图表.工控图表.数据透视表.OLAP多维分析等图表报表开发的,下面就来看看全球备受欢迎的的可视化工具都有哪些吧! 二十九.Gantti Gantti是一个开源的PHP类,帮助用户即时生成Gantti图表.使用Gantti创建图表无需使用JavaScript,纯H