Hadoop 2.7.3 完全分布式维护-动态增加datanode篇

原有环境

http://www.cnblogs.com/ilifeilong/p/7406944.html

 IP       host JDK linux hadop role
172.16.101.55 sht-sgmhadoopnn-01 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 NameNode,SecondaryNameNode,ResourceManager
172.16.101.58 sht-sgmhadoopdn-01 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 DataNode,NodeManager
172.16.101.59 sht-sgmhadoopdn-02 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 DataNode,NodeManager
172.16.101.60 sht-sgmhadoopdn-03 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 DataNode,NodeManager
172.16.101.66 sht-sgmhadoopdn-04 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 DataNode,NodeManager

现计划向集群新增一台datanode,如表格所示

1. 配置系统环境

主机名,ssh互信,环境变量等

2. 修改namenode节点的slave文件,增加新节点信息

$ cat slaves
sht-sgmhadoopdn-01
sht-sgmhadoopdn-02
sht-sgmhadoopdn-03
sht-sgmhadoopdn-04

3. 在namenode节点上,将hadoop-2.7.3复制到新节点上,并在新节点上删除data和logs目录中的文件

$ hostname
sht-sgmhadoopnn-01
$ rsync -az --progress /usr/local/hadoop-2.7.3/* [email protected]:/usr/local/hadoop-2.7.3/

$ hostname
sht-sgmhadoopdn-04
$ rm -rf /usr/local/hadoop-2.7.3/logs/*
$ rm -rf /usr/local/hadoop-2.7.3/data/*

4. 启动新datanode的datanode进程

$ hadoop-daemon.sh start datanode
starting datanode, logging to /usr/local/hadoop-2.7.3/logs/hadoop-hduser-datanode-sht-sgmhadoopdn-04.out
$ jps
31875 Jps
31821 DataNode

5. 在namenode查看当前集群情况,确认信节点已经正常加入

5.1 以命令行方式

$ hdfs dfsadmin -report
Configured Capacity: 303324561408 (282.49 GB)
Present Capacity: 83729309696 (77.98 GB)
DFS Remaining: 83081265152 (77.38 GB)
DFS Used: 648044544 (618.02 MB)
DFS Used%: 0.77%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
Live datanodes (4):

Name: 172.16.101.66:50010 (sht-sgmhadoopdn-04)
Hostname: sht-sgmhadoopdn-04
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 35573932032 (33.13 GB)
DFS Remaining: 40257183744 (37.49 GB)
DFS Used%: 0.00%
DFS Remaining%: 53.09%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:16 CST 2017

Name: 172.16.101.60:50010 (sht-sgmhadoopdn-03)
Hostname: sht-sgmhadoopdn-03
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 216006656 (206 MB)
Non DFS Used: 61714608128 (57.48 GB)
DFS Remaining: 13900525568 (12.95 GB)
DFS Used%: 0.28%
DFS Remaining%: 18.33%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:15 CST 2017

Name: 172.16.101.59:50010 (sht-sgmhadoopdn-02)
Hostname: sht-sgmhadoopdn-02
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 216006656 (206 MB)
Non DFS Used: 62057410560 (57.80 GB)
DFS Remaining: 13557723136 (12.63 GB)
DFS Used%: 0.28%
DFS Remaining%: 17.88%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:14 CST 2017

Name: 172.16.101.58:50010 (sht-sgmhadoopdn-01)
Hostname: sht-sgmhadoopdn-01
Decommission Status : Normal
Configured Capacity: 75831140352 (70.62 GB)
DFS Used: 216006656 (206 MB)
Non DFS Used: 60249300992 (56.11 GB)
DFS Remaining: 15365832704 (14.31 GB)
DFS Used%: 0.28%
DFS Remaining%: 20.26%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Sep 01 22:50:15 CST 2017

5.2 以web方式

6. 在namenoe上设置 hdfs 的负载均衡

$ hdfs dfsadmin -setBalancerBandwidth 67108864
Balancer bandwidth is set to 67108864
$ start-balancer.sh -threshold 5
starting balancer, logging to /usr/local/hadoop-2.7.3/logs/hadoop-hduser-balancer-sht-sgmhadoopnn-01.out

7. 查看hdfs负载信息(有时候节点数据量较小,看出来数据量变化,可以上传大文件测试)

8. 启动新节点的nodemanager进程

$ yarn-daemon.sh start nodemanager
starting nodemanager, logging to /usr/local/hadoop-2.7.3/logs/yarn-hduser-nodemanager-sht-sgmhadoopdn-04.out
$ jps
32562 NodeManager
32599 Jps
31821 DataNode

时间: 2024-08-25 10:44:08

Hadoop 2.7.3 完全分布式维护-动态增加datanode篇的相关文章

[Nutch]Hadoop动态增加DataNode节点和TaskTracker节点

在之前的博文有对分布式模式做负载均衡设置,那么这次我们就来说明一下如果动态增加DataNode结点和TaskTracker结点. 1. 在host1上增加host4 使用如下命令: vi conf/slaves 如下: 2. 将host1上的公钥加入到host4中 使用如下命令: ssh-copy-id -i .ssh/id_rsa.pub [email protected] 如下: 将host1的公钥添加到host4中,可以免密码登录.如下: 3. 将hadoop拷贝到host4上 使用如下命

Hadoop 2.6.3动态增加/删除DataNode节点

假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一.动态增加DataNode 1.准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa 2.复制Hadoop运行目录.hdfs目录及tmp目录至新的DataNode 3.在新DataNode上启动hadoop ..sbin/hadoop-daemon.sh start datanode ..sbin/yarn-daemon

5.zookeeper应用案例之分布式服务器动态上下线感知

zookeeper应用案例之分布式服务器动态上下线感知,当服务器上线和下线时候客户端都能感知到,还有哪些机器在线.并对zookeeper管理的服务器进行节点的监听; 代码实现:客户端 每当服务端有服务器上线或下线 在客户端都能通过监听感知到 package org.zookeeper.anli; import java.util.ArrayList; import java.util.List; import org.apache.zookeeper.WatchedEvent; import o

基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计

map/reduce是大数据处理的技术,它的思路是把大规模数据分成一个个小数据块,每个数据块由一个map任务来处理,处理的中间结果汇总到reduce,最后生成最终的处理结果,这个处理和汇总的过程是可以反复多次的,也就是map-reduce-map-reduce 基于map/reduce的思路,我们可以设计基于hadoop(map/reduce)的大规模分布式并行计算生产排程系统,怎么样把大数据处理变成大规模分布式并行计算呢,就是我们不切分数据,每个map任务的数据都是相同的,每个map任务对排程

Hadoop YARN 安装-单机伪分布式环境

本文是根据Hadoop官网安装教程写的Hadoop YARN在单机伪分布式环境下的安装报告,仅供参考. 1. 安装环境如下: 操作系统:Ubuntu14.04 Hadoop版本:hadoop-2.5.0 Java版本:openjdk-1.7.0_55 2. 下载Hadoop-2.5.0,下载地址 http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.0/hadoop-2.5.0.tar.gz 本文的$HADOOP_HOME为:/home/

Hadoop技术内幕HDFS-笔记5之动态代理

1.1.  java动态代理 java.lang.reflect包下的Proxy(创建代理对象)和InvocationHandler(调用转发)两个类 代理对象代表目标对象(target)执行相应的活动 静态代理:代理对象实现目标对象一致的接口,实现代理接口和调用转发 (不推荐使用) 在调用前后的附加逻辑,体现了代理对象的价值 代码示例: 1. java动态代理接口 package proxy; public interface BookDAO { //增加图书的实现 public void a

Hadoop日记Day3---Hadoop的伪分布式安装

导录 比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

hadoop动态添加datanode启动失败的经验

动态添加datanode节点,主机名node14.cnshell>hadoop-daemon.sh start datanodeshell>jps #查看datanode进程是否已启动发现DataNode进程启动后立即消失,查询日志发现一下记录: 2018-04-15 00:08:43,158 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: registered UNIX signal handlers for [TERM, HUP,

Hadoop概念学习系列之Hadoop集群动态增加新节点或删除已有某节点及复制策略导向

hadoop-2.6.0动态添加新节点 https://blog.csdn.net/baidu_25820069/article/details/52225216 Hadoop集群动态增加新节点 一.在新增节点配置运行环境 1.安装和其他节点相同的java环境,jdk版本要相同. 2.修改/etc/hosts配置文件,添加ip与hostname的对应关系并分发到集群各个节点. 3.关闭防火墙.相关软件工具的安装等. 4.配置ssh免密码登录,使新增节点和集群其他节点能实现免密码登录. 5.修改s