Hadoop生态圈技术图谱

当下Hadoop已经成长为一个庞大的体系，貌似只要和海量数据相关的，没有哪个领域缺少Hadoop的身影，下面是一个Hadoop生态系统的图谱，详细的列举了在Hadoop这个生态系统中出现的各种数据工具。
这一切，都起源自Web数据爆炸时代的来临

数据抓取系统－Nutch
海量数据怎么存，当然是用分布式文件系统-HDFS
数据怎么用呢，分析，处理MapReduce框架，让你编写代码来实现对大数据的分析工作
非结构化数据（日志）收集处理-fuse,WebDav,Chukwa,flume,scribe
数据导入到HDFS中，至此RDBSM也可以加入HDFS的狂欢了-Hiho,sqoop
MapReduce太麻烦，好吧，让你用熟悉的方式来操作Hadoop里的数据-Pig,Hive,Jaql
让你的数据可见－drilldown，intellicus
用高级语言管理你的任务流－oozie，cascading
Hadoop当然也有自己的监控管理工具－Ambari,Hue,karmasphere,eclipse plugin,Cacti,ganglia
数据序列化处理与任务调度-avro，zookeeper
更多构建在Hadoop上层的服务 - Mahout，Elastic map Reduce
OLTP存储系统-Hbase

http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-glance/

http://zh.hortonworks.com/blog/modern-retail-architectures-built-hadoop/

时间： 2024-11-16 20:59:19

Hadoop生态圈技术图谱的相关文章

基于Hadoop生态圈的数据仓库实践 —— 概述（二）

二.在Hadoop上实现数据仓库 (大部分翻译自<Big Data Warehousing>) 数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 -- 大数据.对许多组织来说,传统关系数据库已经不能够经济地处理他们所面临的数据量.而Hadoop生态圈就是为了能够廉价处理大量数据的目的应运而生的.下面看看大数据是怎么定义的. 1. 大数据的定义虽然数据仓库技术自诞生之日起的二十多年里一直被用来处理大数据,但"大数据"

基于Hadoop生态圈的数据仓库实践 —— ETL

使用Hive转换.装载数据 1. Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读.写.管理分布式存储上的大数据集.它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL.报表.数据分析等数据仓库任务. 提供一种机制,给各种各样的数据格式加上结构. 直接访问HDFS的文件,或者访问如HBase的其它数据存储. 可以通过MapReduce.Spark或Tez等多种计算框架执行查询. Hive提供标准的SQ

Hadoop生态圈介绍及入门（转）

本帖最后由 howtodown 于 2015-4-2 23:15 编辑问题导读 1.Hadoop生态圈介绍了哪些组件,分别都是什么? 2.大数据与Hadoop是什么关系? 本章主要内容: 理解大数据的挑战了解Hadoop生态圈了解Hadoop发行版使用基于Hadoop的企业级应用你可能听别人说过,我们生活在“大数据”的环境中.技术驱动着当今世界的发展,计算能力飞速增长,电子设备越来越普遍,因特网越来越容易接入,与此同时,比以往任何时候都多的数据正在被传输和收集. 企业正在以惊人的速度产

Hadoop生态圈介绍

[问]hadoop在生产环境下综合考虑的的数据块副本数多少 [答]默认3个,一般也是用3个副本的比较多,如果有特殊需求的话,可以根据自己需求添加副本数. 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段

DNS排查技术图谱

# DNS排查技术图谱 ## 应用程序视角- 应用程序 - 浏览器 - hostname cache - ping- 操作系统 - hostname cache - 域名解析器 - dig domain- 本网DNS转发器 - 无线路由 - [email protected]_ip domain- Local DNS - [email protected] domain- 全球DNS系统 - 根root"." - 顶级域名 TLD - gTLD - ccTLD - 二级域名 SLD -

一张图片看懂hadoop生态圈

好多朋友觉得,通过扁平的文章了解hadoop生态圈不是很直观. 所以我抽时间,把hadoop生态圈中的各部分通过架构图的形式,直观的整理了出来, 方便对hadoop不了解的朋友更直观的了解hadoop. 大家可以在云盘下载原文件(内附思维导图) http://pan.baidu.com/s/1skN5bw5 博主福利给大家推荐一套hadoop视频课程 [百度hadoop核心架构师,首次内部分享的企业级项目视频,价值3980元] 免费赠送100份,先到先得.联系老师微信ganshiyu102

Hadoop生态圈以及各组成部分的简介

1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现列式数据库可集群化可以使用shell.web.api等多种方式访问适合高读写(insert)的场景 HQL查询语言 NoSQL的典型代表产品 ②Hive 数据仓库工具.可以把Hadoop下的原始结构化数据变成Hive中的表支持一种

大数据hadoop生态圈

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. 大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据

Apache Hadoop 和Hadoop生态圈

Apache Hadoop 和Hadoop生态圈 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数