Hadoop 2.x简介

Hadoop 2.0产生背景

Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题
HDFS存在的问题
- NameNode单点故障，难以应用于在线场景
- NameNode压力过大，且内存受限，影响系统扩展性
MapReduce存在的问题
- JobTracker访问压力大，影响系统扩展性
- 难以支持除MapReduce之外的计算框架，比如Spark 、Storm等

　MapReduce是离线计算框架，计算时间会比较长
　Spark是内存计算框架，更快
　Storm是流计算框架，可实时获取计算结果

Hadoop 1.x 与Hadoop 2.x

Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成
- HDFS : NN Federation、HA;
- MapReduce : 运行在YARN上的MR
- YARN : 资源管理系统（内存、CPU资源）

Federation把元数据分成两个独立的NameNode去工作。
YARN知道任何一台机器的使用情况，在执行任务的时候，首先去YARN上申请，YARN 分配到某台机器上去执行，可做到资源不浪费

HDFS存储的数据可由MapReduce进行计算，也可以由其它的计算框架计算

HDFS 2.x优点

解决HDFS 1.0中单点故障和内存受限问题
解决单点故障
- HDFS HA : 通过主备NameNode解决（只有一个NameNode正常工作，其它都是备用）
- 如果主NameNode发生故障，则切换到备NameNode上
解决内存受限问题
- HDFS Federation(联邦)
- 水平扩展，支持多个NameNode
- 每个NameNode分管一部分目录（相互独立）
- 所有NameNode共享所有DataNode存储资源
2.x仅是架构上发生了变化，使用方式不变
对HDFS使用者透明
HDFS 1.X中的命令和API仍可以使用

时间： 2024-12-19 12:41:01

Hadoop 2.x简介的相关文章

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院

1.1 Hadoop简介从Hadoop官网获得Hadoop的介绍:http://hadoop.apache.org/ (1)What Is Apache Hadoop? TheApache Hadoop project develops open-source software for reliable, scalable, distributed computing. TheApache Hadoop software library is a framework that allows f

hadoop中slot简介（map slot 和 reduce slot）

Slots是Hadoop的一个重要概念.然而在Hadoop相关论文,slots的阐述难以理解.网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里.我来尝试讲解一下,以期抛砖引玉. 首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑概念,一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小,因而slot是 Hadoop的资

hadoop核心组件zookeeper简介与特点

zookeeper是一个针对大型分布式系统的可靠协调系统. 1)它提供的功能包括:配置维护,名字服务,分布式同步,组服务等: 2)它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效,功能稳定的系统提供给用户: 特点: 1,最终一致性:为客户端展示同一试图 2,可靠性:如果一条消息被一台服务器接受,那么它将被所有的服务器接受. 3,实时性:zookeeper不能保证两个客户端同时得到刚刚更新的数据,如果需要最新数据,应该在读数据之前调用sync()接口. 4,等待无关(wait-f

Hadoop集群（第7期）_Eclipse开发环境设置

1.Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Windows 7 旗舰版 Eclipse软件:eclipse-jee-indigo-SR1-win32.zip | eclipse-jee-helios-SR2-win32

0基础搭建Hadoop大数据处理-编程

Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA).网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和要点总结. Hadoop是一个强大的并行框架,它允许任务在其分布式集群上并行处理.但是编写.调试Hadoop程序都有很大难度.正因为如此,Hadoop的开发者开发出了Hadoop Eclipse插件,它在Hadoop的开发环境中嵌入了Eclipse,从而实现了开发环境的图形化,降低了编程难度.在安装

Hadoop集群_Eclipse开发环境设置

Hadoop 3.0

1. Hadoop 3.0简介 Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0. Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布. Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码.多Namenode支持.MR Native Task优化.YARN基于cgroup的内存和磁盘IO隔离.YA