(转)Hadoop生态系统

以下图1是hadoop生态图，通俗的说，就是hadoop核心模块和衍生的子项目。

图 1 Hadoop生态系统图

由图可知，hadoop生态系统包括以下成员：

① 各种浏览器，产生海量的Web数据；

② Nutch项目，一个快速搜索海量网页的开源项目

③ HDFS，Hadoop分布式文件系统，大数据的存储系统；

④ 数据分析和可视化工具；

⑤ MapReduce，大数据处理系统；

⑥ 非结构化数据采集和处理工具（fuse,webdav,chukwa,flume,Scribe）；

⑦ 结构化数据与HDFS之间的交互工具（Hiho,sqoop）；

⑧ 多样化的MapReduce程序控制工具（Pig,Hive,Jaql）；

⑨ 数据可视化工具（drilldown,Intellicus）；

⑩ 工作流管理工具（oozie,Cascading）；

? Hadoop生态系统的监管工具（Hue,karmasphere,eclipse plugin,cacti,ganglia）；

? 数据序列化处理与任务调度工具（Avro,Zookeeper）；

? 构建在Hadoop上层的服务（ Mahout,Elastic map Reduce）；

? 在线事务处理存储系统（HBase）。

整个Hadoop生态系统涉及到了大数据收集、大数据存储、大数据处理、大数据分析和大数据应用，从而真正达到寻找和应用大数据价值的目的。（3）和（5）是Hadoop的核心模块，破解了大数据存储和处理的难题。

(转)Hadoop生态系统

时间： 2024-11-08 15:53:05

(转)Hadoop生态系统的相关文章

学习Hadoop生态系统最值得一读的书籍

学习大数据的处理,有必要读一下有关大数据的书籍.这里,我列举了几本书,仅供参考. 1 ZooKeeper: Distributed Process Coordination 这本书针对的是初级或者高级的开发,面向Zookeeper编程的工程师们.如果你的工程中(如HBase)涉及到Zookeeper的应用,有必要了解一下Zookeeper的管理知识和一些基本解决Zookeeper问题的能力.这本书里,鼓励读者查阅Zookeeper的源码,并给予有价值的反馈. 2 Apache Sqoop Coo

Hadoop生态系统

摘要:介绍Hadoop生态系统,从Hadoop生态系统有什么成员,成员能做什么和Hadoop生态系统能够提供大数据问题解决方案两方面来认识. 关键词:Hadoop HDFS MapReduce HBase Hive Pig Hadoop生态图,通俗地说,就是Hadoop核心模块和衍生的子项目. 一幅Hadoop生态图,让我想到了两个问题. 问题一:Hadoop生态系统包括哪些成员?每个成员各自扮演什么样的角色? 问题二:从系统论的角度来观察,Hadoop生态系统为我们破解大数据问题可

比较Apache Hadoop生态系统中不同的文件格式和存储引擎的性能

这篇文章提出了在Apache Hadoop生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache Kudu空间效率,提取性能,分析扫描以及随机数据查找等领域.这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力. 引言最初把Hadoop文件格式和存储引擎做比较的想法是在初始系统修订版之一的驱动下完成的 --这个系统是在CERN中大规模调节Hadoop-ATLAS EventInd

Hadoop生态系统学习路线

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop 生态系统

当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数据工具. 这一切,都起源自 Web 数据爆炸时代的来临.Hadoop 生态系统的功能以及对应的开源工具说明如下. MapReduce Google的网络搜索引擎在得益于算法发挥作用的同时,MapReduce在后台发挥了极大的作用.MapReduce框架成为当今大数据处理背后的最具影响力的“发动机”.

hadoop生态系统的详细介绍

1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN. 下图为hadoop的生态系统: 2.HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版. 是Hadoop体系中数据存储管理的基础.它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的

hadoop 之Hadoop生态系统

1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN. 下图为hadoop的生态系统: 2.HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版. 是Hadoop体系中数据存储管理的基础.它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的

什么是Hadoop生态系统

在一些 Teiid 的一些文章和示例上都会有关于 JBoss Data Virtualization (Teiid) 通过 Hive 使用 Hadoop 作为数据源的信息.当使用 Hadoop 环境创建 Data Virtualization 示例时,比如 Hortonworks Data Platform, Cloudera Quickstart 等等,里面会包含大量的开源项目.本篇文章主要是对 Hadoop 生态系统有个初步的认识,以下的一些开源项目详情可以查看 hadoop ecosyst

hadoop生态系统默认端口集合

1 HDFS服务中,默认端口集合: 1. HDFS 端口 Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameNode and any back-up NameNodes) 50070 http Web UI to look at current status of HDFS,