hadoop系列讨论

生产环境下cloudera的cdh版本更受欢迎,但是貌似cloudera对于YARN的开发力度不是很突出,所以在apache与cdh版本选择的时候,大家是怎么考虑的?

主要关注生产环境下的运维成本,期待更多人加入讨论,更希望有对cdh有运维经验的人来分享分享

添加评论

分享

默认排序按时间排序

7 个回答

0赞同反对,不会显示你的姓名

向磊 东升乡无可匹敌的杰出司令官,校园西路天…

说实话,真觉得hortonworks的好,三种版本都玩过,还是更喜欢hortonworks,初学者喜欢用cdh,因为更省事一些吧。

发布于 2015-08-03 3 条评论 感谢

分享

收藏 • 没有帮助 • 举报 • 作者保留权利

6赞同反对,不会显示你的姓名

ershou 希望做一个建造者,公众号codingcoffee

6 人赞同

果断CDH。
数据工程师应该更关注应用而不是环境本身。
据我了解几家前20的互联网公司也是Cloudera的用户。
话说行业分工也越来越细,Hadoop肯定会往基础组件的方向发展,如果不是希望深入做Hadoop运维的话,就不用折腾原生的了。

发布于 2015-02-05 添加评论 感谢

分享

收藏 • 没有帮助 • 举报 • 作者保留权利

4赞同反对,不会显示你的姓名

迪斯帕拉多 单身狗. [email protected]

4 人赞同

因为前一份工作,我曾经在一个八节点的测试集群上安装并使用过CDH,MapR,和Apache的版本。

我的答案是CDH。
必须要说CDH用起来最省时省力。自动探测host,选择版本,配置简单,几乎是傻瓜式一键安装。

MapR方便程度就稍微差一些,但是仍然比Apache要方便很多。但是MapR版本有一个致命的缺点,它用的不是Hadoop的HDFS而是他们自己实现的MapRFS。导致了Hadoop生态系统中所有涉及到文件系统操作的系统都需要使用MapR的发行版。为了兼容MapRFS,源码都被改过。可以到MapR的github账户上看到。

Apache的话就真心需要专职运维人员去管理了。需要使用一些集群管理配置工具了。手动绝对累死。

你所说的CDH没有对yarn的开发力度不大我觉得这个倒不用太担心。CDH会定期根据Apache开源的最新稳定版本发布相应的CDH版本,所以不存在版本落后最新版很多的情况。而且我记得CDH现在加入了parcel管理,可以非常简单方便地切换hadoop版本而不需要重新安装集群。这个功能诱惑力太大了。另外CDH对于超过50个节点的集群就要开始收费了。这个是需要考虑的问题。

编辑于 2015-03-15 1 条评论 感谢

分享

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对,不会显示你的姓名

知乎用户 架构师 Linux Openstack Hadoop

cloudera的cdh版本在部署大量的集群节点时效率高很多,稳定性感觉也比原生版本好。

发布于 2016-07-13 添加评论 感谢

分享

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对,不会显示你的姓名

legolas 从事大数据与数据分析行业,对一切新技术…

CDH5.X版本已经取消了50个节点的限制。

发布于 2016-03-01 1 条评论 感谢

分享

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对,不会显示你的姓名

刘垣德 数据挖掘

在ubuntu 的wiki里看到因为cloudera由于方便安装,有75%新手选择。网上没有找到这两个组织发行hadoop的比较。不过cloudera貌似基于apache hadoop做bug fix 发布的。
CHD是一个公司发布的,但很多国内小公司都采用。大公司还是自己搞apache的比较好。

编辑于 2014-01-07 添加评论 感谢

分享

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对,不会显示你的姓名

fog Light test

CDH 免费版本的功能限制有点多
http://www.cloudera.com/content/dam/www/static/documents/datasheets/cloudera-enterprise-datasheet.pdf

时间: 2024-11-06 11:56:10

hadoop系列讨论的相关文章

hadoop系列:zookeeper(3)——zookeeper核心原理(事件)

1.概述 上一篇文章,我们对zookeeper中的数据组织结构.Leader选举原理进行了讲述(http://blog.csdn.net/yinwenjie/article/details/47613309).这篇文章我们紧接上文讲解zookeeper中的事件机制.并通过示例代码告诉读者怎么使用zookeeper中的事件通知器:watcher. 2.zookeeper中的监听机制 按照上文中的讲解,我们知道zookeeper主要是为了统一分布式系统中各个节点的工作状态,在资源冲突的情况下协调提供

hadoop系列三:mapreduce的使用(一)

转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列二:HDFS文件系统的命令及JAVA客户端API 在下面可以看到统计一本小说(斗破苍穹)哪些词语出现了最多. 本来mapreducer只想写一篇的,可是发现写一篇太长了,所

hadoop系列二:HDFS文件系统的命令及JAVA客户端API

转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/6391518.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列一:hadoop集群安装 二:HDFS的shell命令 上一章说完了安装HADOOP集群部分,这一张讲HDFS. 其实基本上操作都是通过JAVA API来操作,所以这里的s

【Hadoop系列】linux SSH原理解析

本文中斜体加粗代表shell指令,操作环境 CentOS6.5 linux root免密码登录链接:[Hadoop系列]linux下 root用户免密码登录远程主机 ssh. linux 非root用户免密码登录:XXXXXXX(暂未写好) Linux下,使用ssh协议登录远程计算机.让我们先来了解下什么是SSH. 一.什么是SSH? 简单说,SSH是一种网络协议,用于计算机之间的加密登录.如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途

Hadoop系列之hdfs(分布式文件系统)安装配置

Hadoop系列之hdfs(分布式文件系统)安装配置环境介绍:     ip                        节点192.168.3.10      hdfs-master192.168.3.11      hdfs-slave1192.168.3.12      hdfs-slave21.在所有机器添加hosts192.168.3.10      hdfs-master192.168.3.11      hdfs-slave1192.168.3.12      hdfs-slav

hadoop系列三:mapreduce的使用

转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列二:HDFS文件系统的命令及JAVA客户端API 二:wordcount字数统计功能

Hadoop系列之Hive(数据仓库)安装配置

Hadoop系列之Hive(数据仓库)安装配置1.在NameNode安装  cd /root/soft  tar zxvf apache-hive-0.13.1-bin.tar.gz   mv apache-hive-0.13.1-bin /usr/local/hadoop/hive2. 配置环境变量(每个节点都需要增加) 打开/etc/profile #添加以下内容: export HIVE_HOME=/usr/local/hadoop/hive export PATH=$HIVE_HOME/

Hadoop系列之zookeeper(分布式协调服务)安装配置

Hadoop系列之zookeeper(分布式协调服务)安装配置 1.安装cd /root/softtar zxvf zookeeper-3.4.6.tar.gzmv zookeeper-3.4.6 /usr/local/hadoop/zookeeper2.修改配置文件mkdir -p /data/zookeeper/data //3个节点都需要创建此目录cd /usr/local/hadoop/zookeeper/confcp zoo_sample.cfg zoo.cfg#vim zoo.cfg

Hadoop 系列(二)安装配置

Hadoop 系列(二)安装配置 Hadoop 官网:http://hadoop.apache.or 一.Hadoop 安装 1.1 Hadoop 依赖的组件 JDK :从 Oracle 官网下载,设置环境变量(JAVA_HOME.PATH 和 CLASSPATH). SSH(安全外壳标议) :推荐安装 Openssh. Hadoop 需要通过 SSH 来启动 Slave 列表中各台主机的守护进程,因此 SSH 也是必须安装的,即使是安装伪分布式版本(因为 Hadoop 并没有区分开集群式和伪分