hadoop2的产生背景

Hadoop1的HDFS和Mapreduce在高可用和拓展性方面存在问题。

HDFS存在的问题：

Namenode单点故障，难以应用于在线场景。

Namenode压力过大，且内存受限，影响系统扩展性。

Mapreduce存在问题：

Jobtracker单点故障

Jobtracker压力过大，影响拓展性

难以支持Mapreduce之外的计算框架，如果storm，spark，Tez等。

Hadoop2由Mapreduce，HDFS和yarn三分部构成

HDFS:NN Federation HA

Mapreduce：在yarn上运行的MR

Yarn：资源管理系统

Hadoop2是如何解决Hadoop1的问题的

1：HDFS2

解决HDFS1的单点故障和内存受限问题：

a：解决单点故障

HDFS HA：通过主备Namenode切换来解决，如果主Namenode发生故障，则就切换到备Namenode上。（有了这样的优点以后，系统升级也变得更加方便）。

详细过程：主Namenode对外提供服务，被Namenode同步Namenode元数据，以待切换。所有datanode块同时向两个Namenode汇报数据块信息。

切换Namenode有两种选择，一种是手动切换，一种是自动切换。

手动切换：主要使用命令来实现切换，主要适用于系统升级的场合。

自动切换：是基于zookeeper实现的，zookeeper failover controller监控Namenode健康状态

并向zookeeper注册Namenode，Namenode挂掉后，ZKFC为Namenode竞争锁，获得ZKFC的Namenode成为active namenode。

b:解决内存受限问题

HDFS Federation（联邦），水平拓展，支持多个Namenode，每个Namenode分管一部分目录。所有Namenode共享所有Datanode存储资料。

注意：仅仅是架构上面发生了变换，其他使用方式不变。

2:Mapreduce2

Mapreduce的改变就是yarn的改变，那么YARN到底是怎么一回事，下篇博客说明。

时间： 2024-12-10 15:41:51

hadoop2的产生背景的相关文章

Hadoop2.0产生背景

Hadoop与Hadoop生态系统的区别 Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce: Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分:生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可能更窄),不是一个全能系统而是小而精的多个小系统: Hadoop1.x中存在的问题 Hadoop1.x中HDFS和MapReduce在高可用.扩展性等方面均存在不同程度上的问题: HDFS存在的问

Hadoop1.x与Hadoop2.x之间的差异

一.Hadoop2.x产生背景 1.Hadoop1.x中的HDFS和MapReduce在高可用.扩展性等方面存在问题. 2.HDFS存在的问题 1.NameNode单点故障,难以应用于在线场景. 2.NameNode压力过大,且内存受限,影响扩展性. 3.MapReduce存在的问题 1.JobTracker访问压力大,影响系统扩展性. 2.难以支持除MapReduce之外的计算框架,比如Spark.Strom等. 二.架构差异 1.Hadoop1.x由HDFS和MapReduce组成,不支持H

Centos6下安装Hadoop2.6 问题总结

一. 安装背景:VirtualBox下安装三台Centos6.8虚拟机(一主:master, 两从:slave1,slave2) Centos版本:CentOS-6.8-x86_64 网络配置:三台虚拟机配置静态IP,并配置主机名master,slave1,slave2 系统配置:安装JDK,增加hadoop用户(三台都需要) Hadoop安装包:hadoop-2.6.0-cdh5.6.0.tar.gz 无密码ssh:配置ssh无密码连接(master->slave1, master->sla

【原创 Spark动手实践 1】Hadoop2.7.3安装部署实际动手

目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软件速度更快 4. CentOS 用户配置,Sudo授权第二部分:Java环境准备 1. JDK1.8 安装与配置第三部分:Hadoop配置,启动与验证 1. 解压Hadoop2.7.3更新全局变量 2. 更新Hadoop配置文件 3. 启动Hadoop 4. 验证Hadoop =========

搭建hadoop2 HA

一.简介 1.1 背景: 针对Hadoop 1.x中可能出现的NameNode单点故障(SPOF)或者短时间无法使用的情况,Hadoop 2.x 通过增加一个NameNode的方式进行了改善,而增加一个NameNode后,实际在没有出现问题时,只需要一个NameNode,所以两个NameNode一个处于Standby状态,一个处于Active状态.Standby不对外提供服务,仅同步Active NameNode的状态,以便Active NameNode出现问题时及时切换成Active状态. 1

Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)

1.课程环境本课程涉及的技术产品及相关版本: 技术版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3.4.6 CDH Hadoop 5.3.0 Vmware 10 Hive 0.13.1 HBase 0.98.6 Impala 2.1.0 Oozie 4.0.0 Hue 3.7.0 2.内容简介本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1.Hadoop2.0高阶运维,包括H

Hadoop-2.6.0中关于控制应用是否通过CGroup限制CPU的优化

一.背景 Hadoop-2.6.0中,通过一系列复杂的配置,尤其是LinuxContainerExecutor和CgroupsLCEResourcesHandler这两个组件的使用,使得应用程序可以通过cgroup来限制其CPU的使用,防止CPU消耗过高的作业占住CPU,而其它作业无法使用. 但是,这样也随之带来了一个问题,那就是一旦CPU CGroup启动,所有的应用都会受其限制,而且普遍的,生产集群配置的yarn.nodemanager.resource.cpu-vcores一般是高于物理内

Hadoop2.0、YARN技术大数据视频教程

基于Hadoop2.0.YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战)课程分类:Hadoop适合人群:高级课时数量:81课时用到技术:基于协同过滤的推荐系统.基于HBase的爬虫调度库涉及项目:银行人民币查询系统.HBase编程实践及案例分析咨询qq:1840215592 课程内容简介本课程基于<基于Greenplum Hadoop分布式平台的大数据解决方案>Hadoop部分的基础课程来进行扩展延伸,主要内容分为以下四部分:一.对Had

解决安卓手机键盘弹出时会把背景或百分比定位的布局压缩的问题

做移动端页面时经常遇到以下案例,在有背景的页面上写表单,而且底部为了适应不同手机还得运用绝对定位,因为通常是把容器高度设为了100%,这时在安卓手机上弹窗软键盘时就会把背景图片及其他东西挤压上去,解决方法如下: 在css样式中把大容器定义为fixed布局 .wrap{ position:fixed;left:0;top:0; } 在js中强制把页面的高度覆给他,就相当于自动撑开 var x =document.body.clientWidth; //查询设备的宽度 var y =document