[Hadoop] 令人迷惑的版本

由于Hadoop还处于初期高速发展的节点,加上它又是开源的,因此它的版本一直很混乱,Hadoop一些主要的特性有:

  • Append:支持文件追加功能,如果想使用HBase,需要这个特性。
  • RAID : 在保证数据可靠的前提下,通过引入校验码减少数据块数目。详细链接:https://issues.apache.org/jira/browse/HDFS/component/12313080
  • Symlink :支持HDFS文件链接,具体可参考:https://issues.apache.org/jira/browse/HDFS-245
  • Security : Hadoop安全性,具体可参考:https://issues.apache.org/jira/browse/HADOOP-4487
  • NameNode HA :具体可参考:https://issues.apache.org/jira/browse/HDFS-1064
  • HDFS Federation和YARN

下面是Hadoop的版本演进:

Apache版本下载:

  • 各版本说明:http://hadoop.apache.org/releases.html
  • 下载稳定版:找到一个镜像,下载stable文件夹下的版本
  • Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接导到eclipse中

Cloudera发布版:

从上面我们可以知道,Apache当前的版本管理是比较混乱的,各种版本层出不穷,让很多初学者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。

我们知道,Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有4个版本,其中,前两个已经不再更新,最近的两个,分别是CDH3(在Apache Hadoop 0.20.2版本基础上演化而来的)和CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),分别对应Apache的Hadoop
1.0和Hadoop 2.0,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。

Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。

[Hadoop] 令人迷惑的版本

时间: 2024-08-26 15:58:32

[Hadoop] 令人迷惑的版本的相关文章

令人迷惑的CAP与ACID用语

令人迷惑的CAP与ACID用语 CAP和ACID共享相同的词汇表:原子性(Atomic).一致性(Consistent),诸如此类.但内有玄机:这些词语虽一样,但它们的意思是完全不同的东西.CAP来自分布式系统理论,而ACID属于数据库系统.分布式数据库既使用CAP词汇,也使用ACID词汇,这显然造成许多混淆.当某人讲:"我们不能放弃一致性",他谈到的一致性是什么?让我们来看一看[Atomic-Consistent-Isolated-Durable]和[Consistent-Avail

Mahout安装(Hadoop 1.2.1 版本)

1       安装环境 Hadoop1.2.1 分布式集群环境下安装(192.168.1.53-56) Mahout 0.9 2       安装介质 下载地址:http://archive.apache.org/dist/mahout/0.9/ 文件名(二进制):mahout-distribution-0.9.tar.gz 3       安装步骤 3.1     上传安装介质: #rz 上传目录为:/home/hadoop/ 3.2     解压到相关目录 #cd   /app/hadoo

代码坏味道之令人迷惑的暂时字段

为什么我们随意命名变量会是灾难性的决定? 随意命名变量是编写代码的灾难性决定,我这里说的比较严重,但是为了强调编程过程中不要随意命名我们的变量.因为从以下三方面的理由是不允许我们在程序中随意命名变量的.首先在编程过程中,随意命名的变量会导致我们编写代码中弄乱数据传输的关系,因为人们通过混乱的字段会把字段的本意理解错误的,理解错误字段的意思就会把该字段用在本不该她使用的地方.其次,当你费尽千辛万苦程序终于能够运行了,但是面对需求变更或代码给其他人阅读的时候,会给阅读人带来很大的难度,因为当别人来阅

Hadoop与HBase兼容版本汇总

Hbase的安装需要考虑Hadoop的版本,即兼容性.有不足的希望能指出. 以下考究官网得到的,关于hadoop版本和hbase版本可到以下网址中下载:http://mirror.bit.edu.cn/apache/hbase    HBase-0.92.x HBase-0.94.x HBase-0.96.x HBase-0.98.x Hadoop-1.0.0-1.0.2 S S X S Hadoop-1.0.3+ S S S S Hadoop-1.1.x NT S S S Hadoop-0.2

解析Hadoop 2.3.0版本的新特性

2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本,揭开了Hadoop 2014发展的序幕. 该版本引入了很多大家期待已久的特性,包括HDFS 的异构层次化存储架构.DataNode Cache,YARN的单点故障解决方案,以及MapReduce的自动化部署等.本文尝试为大家解析这些特性,并给出一些资料供大家深入了解. HDFS新特性. 2.3.0中引入了两个大的HDFS特性,分别是异构层次化存储架构和DataNode Cache.

Hadoop的概念、版本、发展史

Hadoop是什么? Hadoop: 适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台.实现在大量计算机组成的集群中对海量数据进行分布式计算.适合大数据的分布式存储和计算平台. Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) 其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总

大数据笔记02:大数据之Hadoop的生态系统和版本

1.Hadoop的生态系统: (1)图1: (2)图2: 图1 和 图2 都是形象说明了Hadoop的生态圈. 2.举例介绍Hadoop生态圈的小工具: (1)Hive工具(中文意思:小蜜蜂) 利用Hive这个工具,不用编写复杂的Hadoop程序,只需要编写一个SQL语句,Hive就会把你编写的SQL语句转化为Hadoop任务去执行. 这样降低使用Hadoop的门槛. (2)hbase 存储结构化数据的分布式数据库 图1: 图2: (3)zookeeper(中文意思:动物管理员) zookeep

hadoop 有那些发行版本

hadoop发行版本 1. apache hadoop  http://hadoop.apache.org/ 2. cloudera hadoop(CDH) https://www.cloudera.com/ 3. hortonworks hadoop(HDP)  https://hortonworks.com 4. MapR  https://mapr.com/ 5. fusionInsight hadoop (华为大数据平台hadoop) http://carrier.huawei.com/

关于hadoop 1.2.1版本不支持“dfs.support.append”参数的解决办法

最近在测试hadoop+fluentd方案,但是fluentd日志收集系统,需要append功能选择,写日志到HDFS中,官方给出的解决方案是: 修改hdfs-site.xml 文件,增加如下行: <property>   <name>dfs.webhdfs.enabled</name>   <value>true</value> </property> <property>   <name>dfs.suppo