Hadoop入门扫盲:hadoop发行版介绍与选择

一、hadoop发行版介绍

目前Hadoop发行版非常多,有Intel发行版,华为发行版、Cloudera发行版(CDH)、Hortonworks版本等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。

目前而言,不收费的Hadoop版本主要有三个,都是国外厂商,分别是:

Apache(最原始的版本,所有发行版均基于这个版本进行改进)

Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)

Hortonworks版本(Hortonworks Data Platform,简称“HDP”)

对于国内用户而言,绝大多数选择CDH版本,Cloudera的CDH和Apache的Hadoop的区别如下:

(1) CDH对Hadoop版本的划分非常清晰,截止目前为止,CDH共有5个版本,其中,前三个已经不再更新,最近的两个,分别是CDH4和CDH5,CDH4基于Hadoop2.0,CDH5基于hadoop2.2/2.3/2.5/2.6.相比而言,Apache版本则混乱得多;同时,CDH发行版比Apache hadoop在兼容性,安全性,稳定性上有很大增强。

(2)CDH3是CDH第三个版本,基于Apache hadoop0.20.2改进而来,并融入了最新的patch,CDH4版本是基于Apache hadoop2.0.0改进的,CDH总是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。

(3)CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证.

(4)CDH文档完善清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。

(5)CDH支持yum/apt包,RPM包,tar包,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。

二、CDH发行版本介绍

CDH首先是100%开源,基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理,交互式sql查询和及时查询,基于角色的权限控制。在企业中使用最广的Hadoop分发版本。

Cloudera完善了CDH的版本,并提供了对hadoop的发布、配置和管理,监控,诊断工具,在官网提供了多种集成发行版。如下图所示:

1、单纯CDH版本下载,目前最新版本为CDH5.8.2,可自由下载并免费无限制使用。

2、Cloudera Express,可免费下载使用,包含了CDH,以及Cloudera Manager(简称CM),CM提供了对集群的管理功能,比如自动化部署,中心化管理,监控,诊断功能等。CM属于非开源产品,Cloudera提供有限功能使用,之前对管理的数据节点限制为50个,目前已经取消了此限制,可无限增加数据节点。

3、Cloudera Enterprise是官方的收费产品,可免费试用60天全功能版本,过期后需要注册码才能继续使用,否则将变为Cloudera Express版本,包含CDH,以及Cloudera Manager。Cloudera Enterprise在发布、配置和管理,监控,诊断,集成四个部分的功能是相同的。只有在高级管理功能中有区别,Cloudera Enterprise拥有这些功能,而Cloudera Express则没有。

三、CDH发行版下载地址

可到官方网站下载页面:http://www.cloudera.com/downloads.html, 也可以知道到下面地址下载不同版本:

http://archive.cloudera.com/cdh/

http://archive.cloudera.com/cdh4/

http://archive.cloudera.com/cdh5/

四、CDH与操作系统的依赖

CDH发行版本与操作系统的关系如下:

经验推荐:

hadoop-2.3.0-cdh5.1.5以及之前的版本,推荐linux操作系统版本为Centos6.x以上

hadoop-2.5.0-cdh5.2.0以及之后的版本,推荐linux操作系统版本为Centos7.x(Centos7.1/7.2,7.0不支持)以上。

时间: 2024-12-28 14:13:29

Hadoop入门扫盲:hadoop发行版介绍与选择的相关文章

Linux发行版介绍、Linux系统基础使用入门、Linux命令帮助、Linux基础命令

计算机打的基础知识:CPU(运算器.控制器).memory.I/O(输入设备.输出设备) 程序运行模式: 用户空间:user space,us (可执行普通指令) 内核空间:system space (可执行特权指令) POS:Postable Operating System 可移植操作系统 POSIX 可移植操作系统规范 运行程序格式: Windows:EXE,库文件dll(dynamic link library 动态链接库) Linux:ELF,库文件so(shared object 共

大数据hadoop入门之hadoop家族详解

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得"熟悉"!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了.作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼.如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来说将是件多么美妙的事情!闲话扯得稍微多了点,回归整体.这篇准备给大家hadoop新入门的朋友

Linux发行版介绍

主流发行版: RedHat系列    出现的很早的一个版本,但似乎商业意味越来越浓,很多人说7不好用,很多人说RHCE是鸡肋.个人感觉6.x的版本还是很好用的.Fedora很多年不用了.下个项目正在准备使用Oracle Linux搭建vSphere上的RAC集群. 衍生版本 Centos RHEL Fedora Oracle Linux Debian系列    最喜欢的发行版,小巧稳定,一个版本通杀桌面和服务器领域.完整的软件仓库是最爱. 衍生版本 Ubuntu Mint Knoppix Sla

hadoop入门:hadoop使用shell命令总结

第一部分:Hadoop Bin后面根据项目的实际需要Hadoop Bin  包括:Hadoop  hadoop的Shellhadoop-config.sh 它的作用是对一些变量进行赋值     HADOOP_HOME(hadoop的安装目录).     HADOOP_CONF_DIR(hadoop的配置文件目录).HADOOP_SLAVES(--hosts指定的文件的地址)hadoop-daemon.sh 单节点启动hadoop-daemons.sh 启动slaves.sh和hadoop-dae

目前比较流行的Python科学计算发行版

经常有身边的学友问到用什么Python发行版比较好? 其实目前比较流行的Python科学计算发行版,主要有这么几个: Python(x,y) GUI基于PyQt,曾经是功能最全也是最强大的,而且是Windows系统中科学免费Python发行版的不二选择.不过今时已不同往昔! PythonXY里面的许多包为了兼容性的问题,无法使用最新的程序包.尤其是令人气愤的是MinGW到现在还是古董级的4.5版本,而TDM-GCC现在都4.8.1-3了.不过这个包在你安装了之后,除了占用较大的磁盘空间之外,基本

学hadoop基础入门之发行版选择

经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易.看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个回答似乎什么也没给出来.这个问题的关键在于"零基础"到底是个什么样的基础?所谓的零基础大体可以分为两种:第一种是hadoop初学者,有一定的Linux基础.虚拟机和Java基础:第二种是hadoop兴趣爱好者,但缺乏最基本的Linux基础.虚拟机和Java基础.如果是第一种,其实学习hadoop的难

Hadoop发行版本介绍

前言 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Hadoop靠拢.Hadoop也从小众的高富帅领域,变成了大数据开发的标准.在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概念不断创新,推出科技进步. 目录 Hadoop的发展史 Hadoop的发行版本的选择和介绍 1. Hadoop发展史 1.1Hadoop产生背景 Hadoop 最早起源于Nutch .Nutch 是

[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想

Ubuntu系统 (我用到版本号是140.4) ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境.Ubuntu的目标在于为一般用户提供一个最新的.同时又相当稳定的主要由自由软件构建而成的操作系统,它可免费使用,并带有社团及专业的支持应. 作为Hadoop大数据开发测试环境, 建议大家不要在windows上安装CgyWin来学习或研究, 直接用Vmware+ubuntu来学习. 下载 www.vmware.com这里下载vmware,

第五十九课 Hadoop入门介绍

Hadoop入门 Hadoop入门 Hadoop 2.0介绍