Hadoop 2.7.3 完全分布式维护-动态增加datanode篇

原有环境

http://www.cnblogs.com/ilifeilong/p/7406944.html

IP	host	JDK	linux	hadop	role
172.16.101.55	sht-sgmhadoopnn-01	1.8.0_111	CentOS release 6.5	hadoop-2.7.3	NameNode,SecondaryNameNode,ResourceManager
172.16.101.58	sht-sgmhadoopdn-01	1.8.0_111	CentOS release 6.5	hadoop-2.7.3	DataNode,NodeManager
172.16.101.59	sht-sgmhadoopdn-02	1.8.0_111	CentOS release 6.5	hadoop-2.7.3	DataNode,NodeManager
172.16.101.60	sht-sgmhadoopdn-03	1.8.0_111	CentOS release 6.5	hadoop-2.7.3	DataNode,NodeManager
172.16.101.66	sht-sgmhadoopdn-04	1.8.0_111	CentOS release 6.5	hadoop-2.7.3	DataNode,NodeManager

现计划向集群新增一台datanode,如表格所示

1. 配置系统环境

主机名,ssh互信,环境变量等

2. 修改namenode节点的slave文件,增加新节点信息

$ cat slaves
sht-sgmhadoopdn-01
sht-sgmhadoopdn-02
sht-sgmhadoopdn-03
sht-sgmhadoopdn-04

3. 在namenode节点上,将hadoop-2.7.3复制到新节点上,并在新节点上删除data和logs目录中的文件

$ hostname
sht-sgmhadoopnn-01
$ rsync -az --progress /usr/local/hadoop-2.7.3/* [email protected]:/usr/local/hadoop-2.7.3/

$ hostname
sht-sgmhadoopdn-04
$ rm -rf /usr/local/hadoop-2.7.3/logs/*
$ rm -rf /usr/local/hadoop-2.7.3/data/*

4. 启动新datanode的datanode进程

$ hadoop-daemon.sh start datanode
starting datanode, logging to /usr/local/hadoop-2.7.3/logs/hadoop-hduser-datanode-sht-sgmhadoopdn-04.out
$ jps
31875 Jps
31821 DataNode

5. 在namenode查看当前集群情况,确认信节点已经正常加入

5.1 以命令行方式

$ hdfs dfsadmin -report
Configured Capacity: 303324561408 (282.49 GB)
Present Capacity: 83729309696 (77.98 GB)
DFS Remaining: 83081265152 (77.38 GB)
DFS Used: 648044544 (618.02 MB)
DFS Used%: 0.77%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
Live datanodes (4):

Name: 172.16.101.66:50010 (sht-sgmhadoopdn-04)
Hostname: sht-sgmhadoopdn-04
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 35573932032 (33.13 GB)
DFS Remaining: 40257183744 (37.49 GB)
DFS Used%: 0.00%
DFS Remaining%: 53.09%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:16 CST 2017

Name: 172.16.101.60:50010 (sht-sgmhadoopdn-03)
Hostname: sht-sgmhadoopdn-03
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 216006656 (206 MB)
Non DFS Used: 61714608128 (57.48 GB)
DFS Remaining: 13900525568 (12.95 GB)
DFS Used%: 0.28%
DFS Remaining%: 18.33%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:15 CST 2017

Name: 172.16.101.59:50010 (sht-sgmhadoopdn-02)
Hostname: sht-sgmhadoopdn-02
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 216006656 (206 MB)
Non DFS Used: 62057410560 (57.80 GB)
DFS Remaining: 13557723136 (12.63 GB)
DFS Used%: 0.28%
DFS Remaining%: 17.88%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:14 CST 2017

Name: 172.16.101.58:50010 (sht-sgmhadoopdn-01)
Hostname: sht-sgmhadoopdn-01
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 216006656 (206 MB)
Non DFS Used: 60249300992 (56.11 GB)
DFS Remaining: 15365832704 (14.31 GB)
DFS Used%: 0.28%
DFS Remaining%: 20.26%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:15 CST 2017

5.2 以web方式

6. 在namenoe上设置 hdfs 的负载均衡

$ hdfs dfsadmin -setBalancerBandwidth 67108864
Balancer bandwidth is set to 67108864
$ start-balancer.sh -threshold 5
starting balancer, logging to /usr/local/hadoop-2.7.3/logs/hadoop-hduser-balancer-sht-sgmhadoopnn-01.out

7. 查看hdfs负载信息(有时候节点数据量较小,看出来数据量变化,可以上传大文件测试)

8. 启动新节点的nodemanager进程

$ yarn-daemon.sh start nodemanager
starting nodemanager, logging to /usr/local/hadoop-2.7.3/logs/yarn-hduser-nodemanager-sht-sgmhadoopdn-04.out
$ jps
32562 NodeManager
32599 Jps
31821 DataNode

时间： 2024-08-25 10:44:08

Hadoop 2.7.3 完全分布式维护-动态增加datanode篇的相关文章

[Nutch]Hadoop动态增加DataNode节点和TaskTracker节点

在之前的博文有对分布式模式做负载均衡设置,那么这次我们就来说明一下如果动态增加DataNode结点和TaskTracker结点. 1. 在host1上增加host4 使用如下命令: vi conf/slaves 如下: 2. 将host1上的公钥加入到host4中使用如下命令: ssh-copy-id -i .ssh/id_rsa.pub [email protected] 如下: 将host1的公钥添加到host4中,可以免密码登录.如下: 3. 将hadoop拷贝到host4上使用如下命

Hadoop 2.6.3动态增加/删除DataNode节点

假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一.动态增加DataNode 1.准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa 2.复制Hadoop运行目录.hdfs目录及tmp目录至新的DataNode 3.在新DataNode上启动hadoop ..sbin/hadoop-daemon.sh start datanode ..sbin/yarn-daemon

5.zookeeper应用案例之分布式服务器动态上下线感知

zookeeper应用案例之分布式服务器动态上下线感知,当服务器上线和下线时候客户端都能感知到,还有哪些机器在线.并对zookeeper管理的服务器进行节点的监听; 代码实现:客户端每当服务端有服务器上线或下线在客户端都能通过监听感知到 package org.zookeeper.anli; import java.util.ArrayList; import java.util.List; import org.apache.zookeeper.WatchedEvent; import o

基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计

map/reduce是大数据处理的技术,它的思路是把大规模数据分成一个个小数据块,每个数据块由一个map任务来处理,处理的中间结果汇总到reduce,最后生成最终的处理结果,这个处理和汇总的过程是可以反复多次的,也就是map-reduce-map-reduce 基于map/reduce的思路,我们可以设计基于hadoop(map/reduce)的大规模分布式并行计算生产排程系统,怎么样把大数据处理变成大规模分布式并行计算呢,就是我们不切分数据,每个map任务的数据都是相同的,每个map任务对排程

Hadoop YARN 安装-单机伪分布式环境

本文是根据Hadoop官网安装教程写的Hadoop YARN在单机伪分布式环境下的安装报告,仅供参考. 1. 安装环境如下: 操作系统:Ubuntu14.04 Hadoop版本:hadoop-2.5.0 Java版本:openjdk-1.7.0_55 2. 下载Hadoop-2.5.0,下载地址 http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.0/hadoop-2.5.0.tar.gz 本文的$HADOOP_HOME为:/home/

Hadoop技术内幕HDFS-笔记5之动态代理

1.1. java动态代理 java.lang.reflect包下的Proxy(创建代理对象)和InvocationHandler(调用转发)两个类代理对象代表目标对象(target)执行相应的活动静态代理:代理对象实现目标对象一致的接口,实现代理接口和调用转发 (不推荐使用) 在调用前后的附加逻辑,体现了代理对象的价值代码示例: 1. java动态代理接口 package proxy; public interface BookDAO { //增加图书的实现 public void a

Hadoop日记Day3---Hadoop的伪分布式安装

导录比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

hadoop动态添加datanode启动失败的经验

动态添加datanode节点,主机名node14.cnshell>hadoop-daemon.sh start datanodeshell>jps #查看datanode进程是否已启动发现DataNode进程启动后立即消失,查询日志发现一下记录: 2018-04-15 00:08:43,158 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: registered UNIX signal handlers for [TERM, HUP,

Hadoop概念学习系列之Hadoop集群动态增加新节点或删除已有某节点及复制策略导向

hadoop-2.6.0动态添加新节点 https://blog.csdn.net/baidu_25820069/article/details/52225216 Hadoop集群动态增加新节点一.在新增节点配置运行环境 1.安装和其他节点相同的java环境,jdk版本要相同. 2.修改/etc/hosts配置文件,添加ip与hostname的对应关系并分发到集群各个节点. 3.关闭防火墙.相关软件工具的安装等. 4.配置ssh免密码登录,使新增节点和集群其他节点能实现免密码登录. 5.修改s