Hadoop生态系统

摘要:介绍Hadoop生态系统,从Hadoop生态系统有什么成员,成员能做什么和Hadoop生态系统能够提供大数据问题解决方案两方面来认识。

关键词:Hadoop  HDFS  MapReduce   HBase  Hive
 Pig

Hadoop生态图,通俗地说,就是Hadoop核心模块和衍生的子项目。

一幅Hadoop生态图,让我想到了两个问题。

问题一:Hadoop生态系统包括哪些成员?每个成员各自扮演什么样的角色?

问题二:从系统论的角度来观察,Hadoop生态系统为我们破解大数据问题可以提供哪些解决方案?

我们先来看问题一。

由图可知
(1)各种浏览器,产生海量的Web数据;(2)Nutch项目,一个快速搜索海量网页的开源项目(3)HDFS,Hadoop分布式文件系统,大数据的存储系统;(4)数据分析和可视化工具;(5)MapReduce,大数据处理系统;(6)非结构化数据采集和处理工具;(7)结构化数据与HDFS之间的交互工具;(8)多样化的MapReduce程序控制工具;(9)数据可视化工具;(10)工作流管理工具;(11)Hadoop生态系统的监管工具;(12)数据序列化处理与任务调度工具;(13)高专业度的Hadoop上层服务工具;(14)在线事务处理存储系统HBase。整个Hadoop生态系统涉及到了大数据收集、大数据存储、大数据处理、大数据分析和大数据应用,从而真正达到寻找和应用大数据价值的目的。(3)和(5)是Hadoop的核心模块,破解了大数据存储和处理的难题。

俗话说,“大道至简”,为了全方位地应用Hadoop形成解决大数据问题的方案,Hadoop周边的子项目或工具,让Hadoop如虎添翼。在此,选取几个细说如下。

1)Pig(http://pig.apache.org/):它是Hadoop的一个扩展,简化了Hadoop的编程,提供了一个高级数据处理语言Pig
Latin,并且保持了Hadoop易于扩展与可靠的特征。

2)Hive(http://hive.apache.org/):它是一种类SQL数据仓库基础设施,建立在Hadoop基础上的数据仓库软件包。数据分析师们可以使用一种HiveQL的类SQL语言,发起一个查询实现与Hive的交互。

3)HBase(http://hbase.apache.org/):它是一个可扩展的、分布式的、大数据存储系统。它的设计源自谷歌的Bigtable,旨在支持大表,即包含数十亿级别的行和数百万级别的列。

4)ZooKeeper(http://zookeeper.apache.org/):它是用于构建大型分布式应用的一种协作式服务。它实现了许多在大型分布式应用中常见的服务,如配置管理、命名、同步和组服务。

5)Sqoop(http://sqoop.apache.org/):它是用在关系数据库和Hadoop之间传递数据。简而言之,通过Sqoop,一方面可以把关系数据库中数据导入到HDFS;另一方面也可以把HDFS中的数据导入到关系数据库里。

6)Mahout(http://mahout.apache.org/):它是针对Hadoop实现机器学习算法,包含朴素贝叶斯分类、k-means聚类和协同过滤等算法。

通过对问题一的求解,我们对Hadoop生态图有了整体观,尤其是里面有哪些成员,每个成员能够做什么有了认识。

不管是我们人,还是各种各样的工具,都应该具有解决问题的能力。当如此,才能感受到存在的价值与意义。

Hadoop生态系统的核心模块和衍生项目,实际上都是为解决好大数据问题而诞生、发展和壮大的。比方说,Yahoo是Hadoop的一个重量级用户,它是Hadoop
Core和Pig的后台支持者,它有40%的Hadoop作业是使用Pig运行的;Twitter也是Pig的有名用户;Facebook使用Hive处理大量用户数据和日志数据等等。由此启发,面对大数据的问题,不管是管理者,还是开发者,可以考虑Hadoop生态系统来构建解决方案,并且在解决大数据问题的同时,进一步完善Hadoop生态系统。

Source:

http://www.wangluqing.com/2014/02/hadoop-ecosystem-map/

http://www.networkworld.com/slideshow/124977/sizing-up-the-hadoop-ecosystem.html#slide1

http://developer.51cto.com/art/201311/415639_all.htm

http://dongxicheng.org/mapreduce-nextgen/rethinking-hadoop-from-problems-solved/

http://blog.nosqlfan.com/html/3675.html

Hadoop生态系统,布布扣,bubuko.com

时间: 2024-08-26 01:05:41

Hadoop生态系统的相关文章

学习Hadoop生态系统最值得一读的书籍

学习大数据的处理,有必要读一下有关大数据的书籍.这里,我列举了几本书,仅供参考. 1 ZooKeeper: Distributed Process Coordination 这本书针对的是初级或者高级的开发,面向Zookeeper编程的工程师们.如果你的工程中(如HBase)涉及到Zookeeper的应用,有必要了解一下Zookeeper的管理知识和一些基本解决Zookeeper问题的能力.这本书里,鼓励读者查阅Zookeeper的源码,并给予有价值的反馈. 2 Apache Sqoop Coo

比较Apache Hadoop生态系统中不同的文件格式和存储引擎的性能

这篇文章提出了在Apache Hadoop生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache Kudu空间效率,提取性能,分析扫描以及随机数据查找等领域.这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力. 引言 最初把Hadoop文件格式和存储引擎做比较的想法是在初始系统修订版之一的驱动下完成的 --这个系统是在CERN中大规模调节Hadoop-ATLAS EventInd

Hadoop生态系统学习路线

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop 生态系统

当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数据工具. 这一切,都起源自 Web 数据爆炸时代的来临.Hadoop 生态系统的功能以及对应的开源工具说明如下. MapReduce Google的网络搜索引擎在得益于算法发挥作用的同时,MapReduce在后台发挥了极大的作用.MapReduce框架成为当今大数据处理背后的最具影响力的“发动机”.

hadoop生态系统的详细介绍

1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN. 下图为hadoop的生态系统: 2.HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版. 是Hadoop体系中数据存储管理的基础.它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的

hadoop 之Hadoop生态系统

1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN. 下图为hadoop的生态系统: 2.HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版. 是Hadoop体系中数据存储管理的基础.它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的

什么是Hadoop生态系统

在一些 Teiid 的一些文章和示例上都会有关于 JBoss Data Virtualization (Teiid) 通过 Hive 使用 Hadoop 作为数据源的信息.当使用 Hadoop 环境创建 Data Virtualization 示例时,比如 Hortonworks Data Platform, Cloudera Quickstart 等等,里面会包含大量的开源项目.本篇文章主要是对 Hadoop 生态系统有个初步的认识,以下的一些开源项目详情可以查看 hadoop ecosyst

(转)Hadoop生态系统

以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目. 图 1 Hadoop生态系统图 由图可知,hadoop生态系统包括以下成员: ①     各种浏览器,产生海量的Web数据: ②     Nutch项目,一个快速搜索海量网页的开源项目 ③     HDFS,Hadoop分布式文件系统,大数据的存储系统: ④     数据分析和可视化工具: ⑤     MapReduce,大数据处理系统: ⑥     非结构化数据采集和处理工具(fuse,webdav,chukwa

hadoop生态系统默认端口集合

1 HDFS服务中,默认端口集合:  1. HDFS 端口 Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameNode and any back-up NameNodes) 50070 http Web UI to look at current status of HDFS,