Hadoop 3.0

1. Hadoop 3.0简介

Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。

Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布。

Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和性能方面,对hadoop内核进行了多项重大改进,主要包括:

2.1 Hadoop Common

(1)精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.apache.hadoop.Records

(2)Classpath isolation以防止不同版本jar包冲突,比如google Guava在混合使用Hadoop、HBase和Spark时,很容易产生冲突。(https://issues.apache.org/jira/browse/HADOOP-11656

(3)Shell脚本重构。 Hadoop 3.0对Hadoop的管理脚本进行了重构,修复了大量bug,增加了新特性,支持动态命令等。https://issues.apache.org/jira/browse/HADOOP-9902

2.2 Hadoop HDFS

(1)HDFS支持数据的擦除编码,这使得HDFS在不降低可靠性的前提下,节省一半存储空间。(https://issues.apache.org/jira/browse/HDFS-7285

(2)多NameNode支持,即支持一个集群中,一个active、多个standby namenode部署方式。注:多ResourceManager特性在hadoop 2.0中已经支持。(https://issues.apache.org/jira/browse/HDFS-6440

2.3 Hadoop MapReduce

(1)Tasknative优化。为MapReduce增加了C/C++的map output collector实现(包括Spill,Sort和IFile等),通过作业级别参数调整就可切换到该实现上。对于shuffle密集型应用,其性能可提高约30%。(https://issues.apache.org/jira/browse/MAPREDUCE-2841

(2)MapReduce内存参数自动推断。在Hadoop 2.0中,为MapReduce作业设置内存参数非常繁琐,涉及到两个参数:mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts,一旦设置不合理,则会使得内存资源浪费严重,比如将前者设置为4096MB,但后者却是“-Xmx2g”,则剩余2g实际上无法让java heap使用到。(https://issues.apache.org/jira/browse/MAPREDUCE-5785

2.4 Hadoop YARN

(1)基于cgroup的内存隔离和IO Disk隔离(https://issues.apache.org/jira/browse/YARN-2619

(2)用curator实现RM leader选举(https://issues.apache.org/jira/browse/YARN-4438

(3)containerresizing(https://issues.apache.org/jira/browse/YARN-1197

(4)Timelineserver next generation ([url=]https://issues.apache.org/jira/browse/YARN-2928[/url])

3.   Hadoop3.0总结

Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布。

Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

时间: 2024-11-10 12:07:13

Hadoop 3.0的相关文章

Apache Hadoop 3.0.0-alpha1,重写 Shell 脚本

Apache Hadoop 3.0.0-alpha1发布了. 部分更新内容: Hadoop 3.0.0-alpha1在Java 8下编译,使用Java 7以及以下版本需更新到Java 8 重写了shell脚本,支持超过两个NameNode 详情请参照发行说明: Hadoop 3.0.0-alpha1 Release Notes 主页:http://hadoop.apache.org/docs/r3.0.0-alpha1/index.html 下载:http://hadoop.apache.org

Hadoop从0开始 (安装配置:转) (一)

之前一直在找安装教程 都是0.20版本的 弄了好久没有弄出来..发现新版跟旧版有很大的不同 今天终于找到新版的安装配置方法.分享出来. 安装环境: 系统:Ubuntu 12.10 hadoop:0.23.6 jdk:sun 1.7.0_21 安装步骤: 一.安装JDK 安装 orcale jdk,并且配置环境以及设置成默认(略) 检查jdk是否正确安装和配置 在主目录下执行java -version 如果出现下面类似结果则ok [email protected]:~$ java -version

Hadoop 2.0中单点故障解决方案总结

项目构建 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算. 令人欣慰的是,这些问题在Hadoop 2.0中得到了非常完整的解决.Hadoop 2.0内核由三个分支组成,分别是HDFS.MapReduce和YARN,而Hadoop生态系统中的其他系统,比如HBas

Hadoop 2.0 NameNode HA和Federation实践

参考链接:Hadoop 2.0 NameNode HA和Federation实践 Posted on 2012/12/10 一.背景 天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Ava

Hadoop 2.0安装以及不停集群加datanode

Hadoop2.0是对Hadoop1.0全面升级,诞生了通用的计算框架YARN,很多计算框架或者应用程序不再基于传统的操作系统开发,而是基于YARN这个云操作系统.典型的代表是DAG计算框架Tez,当然还有一些其他知名的自运行的计算集群系统也在YARN上有开源版本,比如Storm-on-yarn,Spark-on-yarn.我们先安装一个Hadoop2.0环境,作为一切的开始. 单机环境中,Hadoop有伪分布式模式,即"单点集群",在该模式下,所有的守护集成均会运行在单个节点上. 伪

hadoop 3.0.0 alpha1 分布式搭建

一.节点参数 namenode master 192.168.56.101 datanode node0 192.168.56.102 二.配置主机名 192.168.56.101 master 192.168.56.102 node0 三.在master上,下载hadoop 3.0.0并解压 wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz cp  

hadoop 3.0.0 alpha1 伪分布式搭建

一.安装opensjdk 1.8.0 yum install java-1.8.0-openjdk -y 二.下载hadoop 3.0.0 wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz 三.配置hadoop 1.解压hadoop 2.编辑 etc/hadoop/hadoop-env.sh export JAVA_HOME='/usr/lib/jvm

Hadoop 3.0 Erasure Coding 纠删码功能预分析

前言 HDFS也可以支持Erasure Coding功能了,将会在Hadoop 3.0中发布,可以凭图为证: 在HDFS-7285中,实现了这个新功能.鉴于此功能还远没有到发布的阶段,可能后面此块相关的代码还会进行进一步的改造,因此只是做一个所谓的预分析,帮助大家提前了解Hadoop社区目前是如何实现这一功能的.本人之前也没有接触过Erasure Coding技术,中间过程也确实有些偶然,相信本文可以带给大家收获. 巧遇Hadoop 3.0 Erasure Coding 第一次主动去了解eras

ubuntu 14.04 hadoop eclipse 0配置基本环境

动人的hadoop第二天.构造hadoop该环境还花了两天时间,在这里写自己配置的过程,我希望能帮助! 我将文中用到的全部资源都分享到了  这里,点开就能下载,不须要一个个的找啦! 当中有<Hadoop 技术内幕>这本书.第一章讲述了这个配置过程,可是不具体~ ---------------安装jdk------------------------------- 1. 下载jdk1.6.0_45 2.解压到opt目录下,配置/etc/profile.在文件尾部加上 #set java envi

Hadoop 2.0工作原理学习

1 HDFS简介 1.1 Hadoop 2.0介绍 Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算.Hadoop 2.0即第二代Hadoop系统,其框架最核心的设计是HDFS.MapReduce和YARN.其中,HDFS为海量数据提供存储,MapReduce用于分布式计算,YARN用于进行资源管理. Hadoop 1.0和Hadoop 2.0的结构对比: Hadoop 2.0的主要改进有: 1.通过YARN实现资源的调度与管理,从而使Hadoop 2.0可以运行