cloudera learning4:Hadoop集群规划

涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习。

Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大。

比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的磁盘,一般还要再预估25%buffer。如果一台机器的存储量为16*3T,则大概每个月往集群中增加1台机器。

如何进行硬件选择?一般Hadoop节点分成管理节点(master node)和工作节点(work node)。管理节点上跑NameNode,Standby NameNode,ResourceManager,SecondaryNameNode。工作节点上跑DataNode,NodeManager,impala server进程。

work nodes的推荐配置:

中级配置(deep storage, 1Gb Ethernet ):

– 16 x 3TB SATA II hard drives, in a non-RAID, JBOD* configuraGon – 1 or 2 of the 16 drives for the OS, with RAID-1 mirroring
– 2 x 6-core 2.9GHz CPUs, 15MB cache
– 256GB RAM

– 2x1 Gigabit Ethernet

高级配置(high memory, spindle dense, 10Gb Ethernet ):

– 24 x 1TB Nearline/MDL SAS hard drives, in a non-RAID, JBOD* configuraGon

– 2 x 6-core 2.9GHz CPUs, 15MB cache – 512GB RAM (or more)
– 1x10 Gigabit Ethernet

Work Node不推荐RAID,不推荐Blade Servers。

master node的推荐配置:

Carrier-class hardware

Dual power supplies

Dual Ethernet cards
– Bonded to provide failover

RAIDed hard drives

Reasonable amount of RAM
– 64 GB for clusters of 20 nodes or less

– 96 GB for clusters of up to 300 nodes

– 128 GB for larger clusters

不推荐部署在虚拟化的主机上,因为虚拟化会带了很多不确定性,比如虚拟的三个server,实际的存储可能在一个物理server上,给hdfs的block备份带来风险。

Network推荐:

Nodes are connected to a top-of-rack switch

Nodes should be connected at a minimum speed of 1Gb/sec

Consider 10Gb/sec connecAons in the following cases:

– Clusters storing very large amounts of data

– Clusters in which typical jobs produce large amounts of intermediate
data

Racks are interconnected via core switches
Core switches should connect to top-of-rack switches at 10Gb/sec or faster

Beware of oversubscripAon in top-of-rack and core switches

Consider bonded Ethernet to miAgate against failure

Consider redundant top-of-rack and core switches 

用域名,避免用IP地址,最好配DNS.

OS建议选centos or RedHat Enterprise Linux (RHEL) 

磁盘划分越多越好,避免LVM(Logical Volume Manager),设置noatime。

存储的文件size越大越好。

OS,network,system time, user and group和component版本等等的配置,可以通过Cloudera Manager Host Inspector 进行check。

时间: 2024-10-14 15:46:44

cloudera learning4:Hadoop集群规划的相关文章

cloudera learning5:Hadoop集群高级配置

HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求.Default值为30(CM,Non CM is 10).推荐设置为集群node数量*20 再取log.如果设置的太小,当DataNode试图从NameNode上获取block信息时,DataNode log会报“connect refused”. HDFS-DataNode Tun

Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群

1. Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装. 根据使用的需要,Hadoop集群要安装很多的组件,一个一个安装配置起来比较麻烦,还要考虑HA,监控等. 使用Cloudera可以很简单的部署集群,安装需要的组件,并且可以监控和管理集群. CDH是Cloudera公司的发行版,包含Hadoop,Spark,Hive,Hbase和一些工具等. Cloudera有两个版本: Cloudera Expres

基于Cloudera Manager 5和CDH5(版本5.3.3)的Hadoop集群安装

一.Cloudera Manager/CDH5 1.关于cloudera manager和CDH是什么,这里不做详细介绍了.有官网和百科介绍. 附上官网地址:cloudera manager 2.官网的安装指南 官方文档提供了三种安装方式:在线自动安装/手动安装包安装/手动使用cloudera manager管理安装 此处使用第三种方式安装hadoop集群. 二.环境规划 1.系统:CentOS 6.4_x86 master:4G内存,硬盘尽量大容量 slave1:2G内存,硬盘尽量大容量 sl

hadoop 集群调优实践总结

调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 自然语言处理 我们需要从硬件规划和软件规划等多方面结合实现性能和效率的提升. 硬件规划# 评估集群规模# 我们需要搭建多少节点的hadoop集群?回答这个问题考虑的因素比较多:预算?数据量?计算资源

Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS、YARN、MR)安装

虽然我已经装了个Cloudera的CDH集群(教程详见:http://www.cnblogs.com/pojishou/p/6267616.html),但实在太吃内存了,而且给定的组件版本是不可选的,如果只是为了研究研究技术,而且是单机,内存较小的情况下,还是建议安装Apache的原生的集群拿来玩,生产上自然是Cloudera的集群,除非有十分强大的运维. 我这次配了3台虚拟机节点.各给了4G,要是宿主机内存就8G的,可以搞3台2G,应该也是ok的. 〇.安装文件准备 Hadoop 2.7.3:

Hadoop集群内lzo的安装与配置

LZO压缩,可分块并行处理,解压缩的效率也是可以的. 为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc.ant.lzo.lzo编码/解码器并配置lzo的文件:core-site.xml.mapred-site.xml.希望对大家有所帮助.以下是正文: 最近我们部门在测试云计算平台hadoop,我被lzo折腾了三四天,累了个够呛.在此总结一下,也给大家做个参考. 操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-C

Cloudera CDH 5集群搭建(yum 方式)

1      集群环境 主节点 master001 ~~ master006 从节点 slave001 ~~ slave064 2      安装CDH5的YUM源 rpm -Uvhhttp://archive.cloudera.com/cdh5/one-click-install/redhat/6/x86_64/cloudera-cdh-5-0.x86_64.rpm 或 wgethttp://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/cloud

Hadoop集群大数据平台搭建

Hadoop集群环境搭建配置 前言 Hadoop的搭建分为三种形式:单机模式.伪分布模式.完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式. 硬件选择 须知: 分布式环境中一个服务器就是一个节点 节点越多带来的是集群性能的提升 一个Hadoop集群环境中,NameNode,SecondaryNameNode和DataNo

Hadoop集群选择合适的硬件配置

为Hadoop集群选择合适的硬件配置 随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也