【配置CDH和管理服务】关闭DataNode前HDFS的调优

配置CDH和管理服务

关闭DataNode前HDFS的调优

角色要求:配置员、集群管理员、完全管理员

当一个DataNode关闭,NameNode确保每一个DataNode中的每一个块根据复制系数(the replication factor)跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下,一个DataNode有成千上万个块,关闭后集群间还原备份数可能需要几个小时。关闭DataNode的主机之前,你应该首先调整HDFS:

1、提高DataNode的堆栈大小。DataNode应该至少有4 GB的堆栈大小,以允许迭代的增加和最大的流

a、去HDFS服务页面;

b、单击配置(Configuration)选项卡;

c、在每个DataNode角色组(DataNode默认组和额外的DataNode角色组)去资源管理(ResourceManagement)类别,并设置DataNode的Java堆栈大小(字节)(Java
Heap Size of DataNode in Bytes)

d、点击保存更改(Save Changes)提交更改。

2、设置DataNode平衡带宽

a、展开DataNode默认组(DataNode Default Group) >
性能(Performance)类别;

b、根据你的磁盘和网络性能配置DataNode平衡带宽(DataNode Balancing Bandwidth)

c、点击保存更改(Save Changes)提交更改。

3、提高依据迭代设置复制工作乘数器的数值(默认值是2,然而推荐值是10)

a、展开NameNode默认组(NameNode Default Group)
>高级(Advanced)类别;

b、将配置依据迭代设置复制工作乘数器(Replication Work Multiplier Per Iteration)设置为10;

c、点击保存更改(Save Changes)提交更改。

4、增加复制的最大线程数和最大复制线程的限制数

a、展开NameNode默认组(NameNode Default Group)
>高级(Advanced)类别;

b、配置Datanode复制线程的最大数量(Maximumnumber of replication threads on a Datanode)和Datanod复制线程的数量的限制数(Hardlimit
on the number of replication threads on a Datanod)
分别为50和100;

c、点击保存更改(Save Changes)提交更改。

5、重新启动HDFS服务。

翻译水平有限,以下是手打英文原文:

Configuring CDH and Managed Services

Tuning HDFS Prior to Decommissioning DataNodes

Required Role: Configurator、 Cluster Administrator、 Full Administrator

When a DataNode isdecommissioned, the NameNode ensures that every that every block from the DataNodewill still be available across the cluster as dictated by the replicationfactor. This procedure involves copying blocks off the DataNode in smallbatches.
In cases where a DataNode has thousands of blocks,decommissioning cantake several hours. Before decommissioning hosts with DataNodes,you shouldfirst tune HDFS:

1、Raise the heap size of the DataNodes.DataNodes should be configured with at least 4 GB heap size to allow for theincrease in iterations and max streams.

a、Go to the HDFS service page.

b、Click the Configuration tab.

c、Under each DataNode role group (DataNodeDefault Group and additional DataNode role groups) go to the
Resource Management category, and setthe Java Heap Size of DataNode in Bytesproperty as recommended.

d、Click SaveChanges to commit the changes.

2、Set the DataNode balancing bandwith:

a、Expand the DataNode Default Group > Performancecategory.

b、Configure the DataNode Balancing Bandwidth property to the bandwisth you have onyour disks and network.

c、Click SaveChanges to commit the changes.

3、Increase the replication work multiplierper iteration to a larger number (the default is 2, however 10 is recommended):

a、Expand the NameNodeDefault Group > Advancedcatrgory.

b、Configure the ReplicationWork Multiplier Per Iteration property to a value such as 10.

c、Click SaveChanges to commit the changes.

4、 Increase the replication maximim threadsand maximum replication thread hard limits:

a、 Expand the NameNodeDefault Group > Advancedcategory.

b、 Configure the Maximum number of replication threads on a Datanode and
Hard limit on the number of replicationthreads on a Datanode properties to 50 and 100 respectively.

c、 Click SaveChanges to commit the Changes.

5、Restart the HDFS service.

时间: 2024-10-05 22:56:56

【配置CDH和管理服务】关闭DataNode前HDFS的调优的相关文章

Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)

1.课程环境 本课程涉及的技术产品及相关版本: 技术 版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3.4.6 CDH Hadoop 5.3.0 Vmware 10 Hive 0.13.1 HBase 0.98.6 Impala 2.1.0 Oozie 4.0.0 Hue 3.7.0 2.内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1.Hadoop2.0高阶运维,包括H

Hadoop性能调优、YARN的内存和CPU配置

转自: https://blog.csdn.net/tototuzuoquan/article/details/80671128 转: https://blog.csdn.net/dehu_zhou/article/details/52808752 https://blog.csdn.net/dxl342/article/details/52840455 Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优. 一 应用程序编写规范 1.设置Co

【学习】011 JVM参数调优配置

自动内存管理机制 Java虚拟机原理 所谓虚拟机,就是一台虚拟的机器.他是一款软件,用来执行一系列虚拟计算指令,大体上虚拟机可以分为 系统虚拟机和程序虚拟机, 大名鼎鼎的Visual Box.Vmare就属于系统虚拟机,他们完全是对物理计算的仿真, 提供了一个可以运行完整操作系统的软件平台. 程序虚拟机典型代码就是Java虚拟机,它专门为执行单个计算程序而计算,在Java虚拟机中执行的指令我们成为Java 自己码指令.无论是系统虚拟机还是程序虚拟机,在上面运行的软件都被限制于虚拟机提供的资源中.

ABP开发框架前后端开发系列---(12)配置模块的管理

一般来说,一个系统或多或少都会涉及到一些系统参数或者用户信息的配置,而ABP框架也提供了一套配置信息的管理模块,ABP框架的配置信息,必须提前定义好配置的各项内容,然后才能在系统中初始化或者通过接口查询来使用,本篇随笔引入了另外一种配置信息的定义,实现更加简化的处理,本篇随笔着重介绍两者之间的差异和不同的地方. 1.ABP框架的配置管理 如下面是邮件配置信息,配置信息一般先继承自SettingProvider,初始化定义后,才能被系统所使用. EmailSettingProvider:继承自Se

CentOS 6.9下的Setup工具(用于管理服务/防火墙/网络配置/验证服务)

说明:Setup工具套件好像是CentOS下特有的用于管理服务/防火墙/网络配置等,其实就是基于命令行模式界面的GUI工具.唯一特点就是方便. 安装: #安装Setup命令工具 yum -y install setuptool #安装Setup工具配套的系统服务组件 yum -y install ntsysv #安装Setup工具配套的防火墙配置组件 yum -y install system-config-securitylevel-tui #安装Setup工具配套的网络配置组件 yum -y

Windows Server 2016 - 关闭开机显示的管理服务页和关机时必须要输入原因

虽然服务器不需要经常开关机,但是毕竟是我家用,有时候甚至是把它当成一个极简的Windows10系统.每回开机就立刻跳出管理服务器的界面,而且加载还及其缓慢.让我想起了开机广告的一刀传奇.关机的时候,必须要输入原因才能进行,也是很麻烦.有时候就是想关机,并没有太多的理由.还好这两项都在一个地方可以关闭. 关闭这个讨厌的界面,Win + R, 打开gpedit.msc 按如下路径找到系统选项,关闭这两个功能都在一个地方. 启用“ 不显示‘管理你的服务器’ ”. 禁用“ 显示‘关闭时间跟踪程序’ ”.

10.23 linux任务计划cron10.24chkconfig工具10.25 systemd管理服务10.26 unit介绍 10.27 target介绍

- 10.23 linux任务计划cron - 10.24 chkconfig工具 - 10.25 systemd管理服务 - 10.26 unit介绍 - 10.27 target介绍 - 扩展 1. anacron http://blog.csdn.net/strikers1982/article/details/4787226  2. xinetd服(默认机器没有安装这个服务,需要yum install xinetd安装) http://blog.sina.com.cn/s/blog_46

Linux系统服务管理 服务管理

Linux独立服务管理 启动服务 systemctl start 服务名称.service 设置开机自启动 systemctl enable 服务名称.service 停止开机自启动 systemctl disable 服务名称.service 查看服务当前状态 systemctl status 服务名称.service 重新启动服务 systemctl restart 服务名称.service 查看所有已启动的服务 systemctl list-units --type=service Lin

Linux(11):期中架构(3)--- SSH远程管理服务 & ansible 批量管理服务

SSH远程管理服务 1. 远程管理服务知识介绍 # 1.1 SSH远程登录服务介绍说明 SSH是Secure Shell Protocol的简写,由 IETF 网络工作小组(Network Working Group)制定: 在进行数据传输之前,SSH先对联机数据包通过加密技术进行加密处理,加密后在进行数据传输.确保了传递的数据安全. SSH是专为远程登录会话和其他网络服务提供的安全性协议. 利用SSH协议可以有效的防止远程管理过程中的信息泄露问题,在当前的生产环境运维工作中, 绝大多数企业普遍