Hadoop版本变迁

  至2012年5月,Apache Hadoop的四大分支构成了四个系列的Hadoop版本。

1.    0.20.X系列

     0.20.X系列版本是最令用户感到疑惑的,因为它们具有的一些特性,trunk上没有;trunk上有的一些特性,0.20.X系列版本却没有。

2.    0.21.0/0.22.X系列

在这一版本中,将整个Hadoop项目分割成三个独立的模块,分别是Common、HDFS和MapReduce。

     其中,HDFS和MapReduce都对Common模块有依赖性,但是MapReduce对HDFS并没有依赖性。那么,这样的话,MapReduce可以更容易地运行其他分布式文件系统,同时,模块间可以独立开发。

    Common模块:最大的 新特性是在测试方面上添加了Large-Scale Automated Test Framework 和 Fault Injection Framework 。

    HDFS 模块 :主要增加的新特性包括支持追加操作与建立符号连接、 Secondary NameNode 改进(Secondary NameNode 被剔除,取而代之的是 Checkpoint Node,同 时添加一个 Backup Node 的角色,作为 NameNode 的冷备)、允许用户自定义 block 放置算法等。

    MapReduce 模块 :在作业 API 方面,开始启动新 MapReduce API,但老的 API 仍然  兼容。

3.    0.23.X系列

    0.23.X 是为了克服 Hadoop 在扩展性和框架通用性方面的不足而提出来的。它实际上 是一个全新的平台,包括分布式文件系统 HDFS Federation 和资源管理框架 YARN 两部分, 可对接入的各种计算框架(如 MapReduce、Spark 等)进行统一管理。它的发行版自带 MapReduce 库,而该库集成了迄今为止所有的 MapReduce 新特性。

4.    2.X系列

    同 0.23.X 系列一样,2.X 系列也属于下一代 Hadoop。与 0.23.X 系列相比,2.X 系列增 加了 NameNode HA 和 Wire-compatibility 等新特性。

时间: 2024-10-01 02:29:50

Hadoop版本变迁的相关文章

[.net 面向对象程序设计深入](4).NET MVC ——谈谈MVC的版本变迁及新版本6.0发展方向

[.net 面向对象程序设计深入](4).NET MVC ——谈谈MVC的版本变迁及新版本6.0发展方向 1.关于MVC 在本篇中不再详细介绍MVC的基础概念,这些东西百度要比我写的全面多了,MVC从1.0到5.0的时间也不短了,很多人只是按照范例去使用MVC的一些基础功能,并没有更加深入的了解MVC.在这一系列中,我主要介绍MVC的一些原理和使用技巧,以及MVC的发展方向. 先说说MVC,首先他是一种设计模式,如果你百度为什么GOF23种设计模式中没有MVC,答案很有意思,如下: “在他们看来

Hadoop版本说明

由于Hadoop版本混乱多变,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议. 1. Apache Hadoop 1.1  Apache版本衍化 截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0.第一代Hadoop包含三个大版本,分别是0.20.x,0.

Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)

原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式,另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情. Pig的出现很好的弥补了这一不足.Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写

Hadoop on Mac with IntelliJ IDEA - 11 Hadoop版本衍化

最近阅读的材料总是提到Hadoop 0.20.0.23等版本号,导致个人对Hadoop版本感到相当讶异:1.2.1竟然比0.23还落后,你特么在逗我.好奇之下,搜索一把,找到了一个文档,以下内容均来自该文档,在此作个备份. 摘自迪伦. Hadoop大数据解决方案进阶应用 - Hadoop 2.0(1). 1.第一代Hadoop:Hadoop 1.0 包含三个大版本,分别是0.20.x.0.21.x.0.22.x和CDH3 0.20.x最后演化成1.0.x,变成了稳定版 0.21.x和0.22.x

OSSIM版本变迁

OSSIM版本变迁 经过十多年的演进,目前已发展成为一套功能齐全的安全管理与分析平台,其开发公司Alienvault,在2012年7月获3440万美元融资,发展势头喜人,下面我们看看OSSIM各版本变迁,见表1-1. 从2005年开始研究OSSIM平台,到目前,它已经持续发展了10多年,在开源界算是老牌系统了,其系统可靠性,稳定性要超过其他开源工具,本人对OSSIM每一个发行版,都进行了大规模实践和深入研究,它的高性能和优势的体现大家可参考<开源安全运维平台-OSSIM最佳实践>一书.

Hive启动报找不到hadoop版本问题

bin/hive 提示"xxx Illegal Hadoop Version: Unknown (expected A.B.* format)"类似这样的问题, 经过查看代码 public static String getMajorVersion() { String vers = VersionInfo.getVersion(); String[] parts = vers.split("\\."); if (parts.length < 2) { thr

hadoop版本比较 [转]

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议. 1. Apache Hadoop 1.1  Apache版本衍化 截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0.第一代Hadoop包含三个大版本,分别是0.20.x

大话Hadoop版本

大数据时代,正如数据爆炸性增长那般,超出人们的预期加快来临了.“时势造英雄”,Hadoop在大数据潮流中不断被人关注.熟知,并由各大厂商锤炼成大同小异的各类发行版.各大Hadoop发行版犹如“鱼龙混杂”,谁将笑到最后成为制胜大数据的利剑呢?本文将给你答案. 当大数据热潮闪现的时候,Hadoop也进入了人们的视野.Hadoop原本仅仅是一个基于分布式计算环境的开源软件库,由于其符合大数据计算环境的分布式要求,“时势造英雄”一炮走红,犹如当年的Linux开源软件系统一样,成为了研究和设计大数据解决方

基于Centos7编译spark指定Hadoop版本

基于Centos7编译spark指定Hadoop版本 0 摘要 主要探究了如何对spark源码进行编译,以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑.为什么需要编译spark源码呢?官网已经提供了预编译的版本了啊,但是如果你对spark源码进行了修改或者spark提供了相对应的hadoop版本不能满足要求,本人编译是因为需要CDH版本的spark,综上所述,最佳实践是对spark源码进行编译. 1 编译前准备 本次选择的版本是spark2.2.0,需要准备spark