[Nutch]Hadoop动态删除DataNode节点和TaskTracker节点

在之前的博文有说明动态添加一个结点，本次就说明如何动态删除一个结点。

在上一篇博文有讲解如何限制一个结点的连接，要动态删除一个结点，可以在这个基础之上进行配置。

1. 在host1上配置dfs.hosts.exclude

在dfs.hosts.exclude指定的文件中添加host4：

再执行如下命令：

hadoop   dfsadmin   -refreshNodes

然后用如下命令进行查看：

hadoop dfsadmin -report

如下：

2. web界面

从web管理界面可以看到，目前只有3个结点了，host4已经没有了：

3. 从slaves文件中移除host4

4. 从dfs.hosts中移除host4

5. 在host3中配置mapred.hosts.exclude

在mapred.hosts.exclude指定的文件中添加host4：

使用如下的命令进行刷新：

hadoop mradmin -refreshNodes

如下：

6. 从slaves文件中移除host4

7. 从mapred.hosts中移除host4

8. 查看host4

在host4上我们仍然可以看到TaskTracker在运行：

使用如下命令主动停止：

workspace/hadoop-1.2.1/bin/hadoop-daemon.sh stop tasktracker

如下：

时间： 2024-10-09 08:28:02

[Nutch]Hadoop动态删除DataNode节点和TaskTracker节点的相关文章

[Nutch]Hadoop动态增加DataNode节点和TaskTracker节点

在之前的博文有对分布式模式做负载均衡设置,那么这次我们就来说明一下如果动态增加DataNode结点和TaskTracker结点. 1. 在host1上增加host4 使用如下命令: vi conf/slaves 如下: 2. 将host1上的公钥加入到host4中使用如下命令: ssh-copy-id -i .ssh/id_rsa.pub [email protected] 如下: 将host1的公钥添加到host4中,可以免密码登录.如下: 3. 将hadoop拷贝到host4上使用如下命

hadoop动态添加datanode启动失败的经验

动态添加datanode节点,主机名node14.cnshell>hadoop-daemon.sh start datanodeshell>jps #查看datanode进程是否已启动发现DataNode进程启动后立即消失,查询日志发现一下记录: 2018-04-15 00:08:43,158 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: registered UNIX signal handlers for [TERM, HUP,

Hadoop 2.6.3动态增加/删除DataNode节点

假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一.动态增加DataNode 1.准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa 2.复制Hadoop运行目录.hdfs目录及tmp目录至新的DataNode 3.在新DataNode上启动hadoop ..sbin/hadoop-daemon.sh start datanode ..sbin/yarn-daemon

Hadoop动态添加/删除节点（datanode和tacktracker）

总的来说,正确的做法是优先通过配置文件,再在具体机器上进行相应进程的启动/停止操作. 网上一些资料说在调整配置文件的时候,优先使用主机名而不是IP进行配置. 总的来说添加/删除DataNode和TaskTracker的方法非常相似,只是操作的配置项和使用的命令有微小差异. 1. DataNode 1.0 配置文件在master/namenode下修改配置文件conf/mapred-site.xml. 关键参数dfs.hosts和dfs.hosts.exclude. 注意:不同hadoop版本的

Hadoop动态加入/删除节点（datanode和tacktracker）

大体,正确的做法是首选的配置文件,然后开始详细机对应的进程/停止操作. 网上一些资料说在调整配置文件的时候,优先使用主机名而不是IP进行配置. 总的来说加入/删除DataNode和TaskTracker的方法很相似,仅仅是操作的配置项和使用的命令有微小差异. 1. DataNode 1.0 配置文件在master/namenode下改动配置文件conf/mapred-site.xml. 关键參数dfs.hosts和dfs.hosts.exclude. 注意:不同hadoop版本号的配置文件规划

spark、hadoop动态增减节点

之前在搭建实验环境的时候按部就班的配置好,然后就启动了.后来再一琢磨,有点不对劲.分布式系统的一个优势就是动态可伸缩性,如果增删节点需要重启那肯定是不行的.后来研究了一下,发现的确是不需要重启的.仍以Spark和Hadoop为例: 对于spark来说很简单,增加一个节点就是命令启动: ./sbin/start-slave.sh spark://<master>:7077 ,就完成了新节点的注册和加入集群.停止的时候是: ./sbin/stop-slave.sh.之后在master的管理端会显示

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索. 搜索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩.高可用.对大量信息的索引与搜索都可以在近乎实时的情况下完成,能够快速实时搜索数十亿的文件以及PB级的数据,同时提供了全方面的选项,可以对

Nutch+hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯,但实践证明这是错误的--做过不等于记得怎么做,遇到过的错误也不等于今后就不是错误了.Nutch跟Hadoop的搭建困扰了我很久,但回头看看又觉得真正有些问题的其实就几个关键点,所以觉得花些时间写个简单流程,缅怀一下最近的探索,也希望能给想要搭建Nutch或hadoop的同学提供一些帮助.欢迎大家指正. 想要说明一下的是,虽然说hadoop诞生于nutch,但现在hadoop已经完全独立为一个分布式框架,我们可以简单地理解为nutch只是跑在h

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Incompatible namespaceIDs

用三台centos操作系统的机器搭建了一个hadoop的分布式集群.启动服务后失败,查看datanode的日志,提示错误:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = 240012870; datanode