Hadoop集群硬件标准配置

在我们选择硬件的时候，往往需要考虑应用得到的性能和经费开支。为此，我们必须在满足实际需要和经济可行上找到一个完美的平衡。下面，以Hadoop集群应用为了例子，说明需要考虑的要素。

1. I/O绑定的工作负荷。

Hadoop涉及到的I/O操作，主要包括下列几项：

索引（Indexing）
群化（Grouping）
数据导入和导出（Data importing and exporting）
数据移动和转换（Data movement and transformation）

2. CPU绑定的工作负荷

Hadoop中，作业的执行，需要CPU的持续运作。下面列举了几个方面：

集群处理（Clustering/Classification）
复杂的文本挖掘Complex text mining
自然语言的处理(Natural-language processing)
特殊功能的提取（Feature extraction）

说了这里，还是直接说明Hadoop标准配置吧。企业级应用，私有云处理都可能涉及到这样的配置需要。下面列举DataNode/TaskTrackers(MR1)的标准配置规格说明：

12-24
1-4TB硬盘（批量的磁盘）
2
quad-/hex-/octo-core CPUs，运行频率至少2-2.5GHz
64-512GB of RAM(内存)
绑定Gigabit
Ethernet（千兆网络，更多的存储密度，需要更高的网络输入的需要）

Hadoop集群中，NameNode/JobTracker(MR1)的标准配置规格说明：

3-6 1TB硬盘（批量的磁盘）
2 quad-/hex-/octo-core CPUs，运行频率至少2-2.5GHz
64-512GB of RAM(内存)
绑定Gigabit Ethernet（千兆网络，更多的存储密度，需要更高的网络输入的需要）

其实，根据业务来划分硬件的配置，在参数上稍微有点区别。从上面的配置可以看出，数据存储需要的硬盘容量比较大。可见，考虑真实的业务需求是有必要的。可能规模小一点的，配置稍微弱一点也是可以的。以上参数，仅供参考而已。

God could not be everywhere and therefore he made mothers.（嘻嘻，亲爱的妈妈，母亲节快乐！）

God could not be everywhere and therefore he made mothers.

Hadoop集群硬件标准配置,布布扣,bubuko.com

时间： 2024-10-10 17:31:53

Hadoop集群硬件标准配置的相关文章

Hadoop集群选择合适的硬件配置

为Hadoop集群选择合适的硬件配置随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也

cloudera learning4:Hadoop集群规划

涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习. Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大. 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的磁盘,一般还要再预估25%buffer.如果一台机器的存储量为16*3T,则大概每个月往集群中增加1台机器. 如何进行硬件选择?一般Hadoop节点分成管理节点(master node)和工作节点(w

Hadoop集群（第1期）_CentOS安装配置

1.准备安装 1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本.每个版本的 CentOS 都会获得七年的支持(通过安全更新方式).新版本的 CentOS 每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支持新的硬件.这样,建立一个安全.低维护.稳定.高预测性.高重复性的 Linux 环境. CentOS(Community Enterprise Operati

Hadoop集群（第1期）CentOS安装配置

Hadoop集群大数据平台搭建

Hadoop集群环境搭建配置前言 Hadoop的搭建分为三种形式:单机模式.伪分布模式.完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式. 硬件选择须知: 分布式环境中一个服务器就是一个节点节点越多带来的是集群性能的提升一个Hadoop集群环境中,NameNode,SecondaryNameNode和DataNo

深入理解Hadoop集群和网络

导读:云计算和Hadoop中网络是讨论得相对比较少的领域.本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心.云网络等.文章素材基于作者自己的研究.实验和Cloudera的培训资料. 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系.最开始我们先学习一下Hadoop集群运作的基础原理. Hadoop里的服务器角色 Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点.主节点主要负责Had

Hadoop集群搭建步骤

实验性操作是在虚拟机里进行的,除了搭建hadoop本身的操作之外,遇到的其它问题总结如下: 1. 虚拟机挂载windows磁盘: 添加硬件,要保证该硬件此时没有被读写访问等,因为挂载后,该磁盘在宿主机上就不能用了.启动虚拟机linux,执行 fdisk –l 查看windows磁盘的分区,如/dev/sdb2,然后执行挂载命令: mount /dev/sdb2 /mnt/win/ 然后就可以到/mnt/win目录下访问磁盘上的内容了 2. hadoop启动时如果报错,提示JAVA_HOME is

Hadoop集群（第10期）_MySQL关系数据库

1.MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续. 图1.1-1 MySQL安装向导第二步:在"I accept

Hadoop集群（第8期）_HDFS初探之旅

1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利. Hadoop整合了众多文件系统,在其中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口