Hadoop2.2.0
GA release 通用版本,Hadoop2.2.0就是一个通用版本
Hadoop2.2.0是从Hadoop1.1.0升级过来的,增加了以下特性:
1.增加了YARN;
2.HDFS增加了HA;
3.HDFS增加了Federation;
4.HDFS增加了快照 ;
5.HDFS的读写使用了NFSv3;
6.Hadoop可以支持运行在Windows;
7.和Hadoop1的MR二进制兼容性 ;
8.增加了一些和生态系统中其他产品的测试类。
YARN是“Yet Another Resource Negotiator”的简称,它是Hadoop2.0引入的一个全新的通用资源管理系统,可在其上运行各种应用程序和框架,比如MapReduce、Tez、Storm等,YARN是在MRv1的基础上衍化而来的,相似的资源管理系统还有mesos;
HA是High Availability,是为了解决HDFS 的NameNode单点故障问题,方案是通过主备切换,主备NameNode共享元数据信息;
HDFS Federation是为了解决HDFS NameNode单点内存受限问题,它允许集群中存在多个NameNode,每个NameNode分管一部分目录;
HDFS 快照是指HDFS文件系统的某一时刻的只读镜像,它的出现使得管理员可定时为重要文件或者目录做快照,以防止数据误删、丢失等;
通过NFSv3访问HDFS,NFS允许用户像访问本地文件系统一样访问远程文件系统,简化了HDFS的使用,这是通过引入了NFS gateway服务实现的,将NFS协议转换为HDFS访问协议
Hadoop2.3.0
新特性:
1.异构层次化存储架构;
2.DateNode 缓存;
3.MR的自动化部署。
在之前的版本,HDFS的存储介质是磁盘,不管是热数据还是冷数据,随着新型介质的日益成熟,HDFS开始支持异构介质,即同一个Hadoop集群可以用同时使用多种存储介质,用户可根据需要将不用的数据存在不同的介质中,比如热点数据存在SSD上,冷数据存在磁盘上;
HDFS DateNode之前没有考虑数据缓存,随着内存计算框架的兴起,Hadoop也不想把自己局限在离线处理和分析上,而是能够同时指出离线分析和在线分析,为了指出在线处理,就要降低延迟,提高性能,其中个人觉得可观的就是Tachyon存储系统;
在Hadoop 2.0中,MapReduce jar包是同YARN和HDFS jar包打包在一起的,部署Hadoop时会一同被分发到各个节点上的,这实际上违背了YARN的设计初衷。YARN是一个资源管理系统,其上面所有应用程序不需要事先部署到各个节点上,只需在客户端存在一份jar包,然后由YARN自动分发到各个节点上即可,为此,Hadoop 2.3.0对此进行了修正。
Hadoop2.4.0
新特性:
1.HDFS支持ACL;
2.HDFS支持在线升级;
3.HDFS支持https协议;
4.
Hadoop2.4.1
Hadoop2.5.0
Hadoop2.5.1
Hadoop2.5.2
Hadoop2.6.0
大部分内容分摘自官网(http://hadoop.apache.org/releases.html#News)和董的博客(http://dongxicheng.org/)