[Nutch]限制Hadoop结点连接

在上一篇博文我们有说明如何动态增加一个DataNode结点和TaskTracker结点，本次就来说明一下如何限制hadoop结点的连接。

1. 配置hdfs-site.xml文件

新增如下内容：

<property>
  <name>dfs.hosts</name>
  <value>/home/hadoop/workspace/hadoop-1.2.1/conf/include</value>
</property>
<property>
  <name>dfs.hosts.exclude</name>
  <value>/home/hadoop/workspace/hadoop-1.2.1/conf/exclude</value>
</property>

如下：

2. 添加加入集群的结点

修改dfs.hosts指定的文件，如下：

vim /home/hadoop/workspace/hadoop-1.2.1/conf/include

添加当前使用的主机：host1、 host2、 host3、 host4

如下：

3. 在host3上配置mapred-site.xml

使用如下命令：

vim workspace/hadoop-1.2.1/conf/mapred-site.xml

新增如下内容：

<property>
  <name>mapred.hosts</name>
  <value>/home/hadoop/workspace/hadoop-1.2.1/conf/include</value>
</property>
<property>
  <name>mapred.hosts.exclude</name>
  <value>/home/hadoop/workspace/hadoop-1.2.1/conf/exclude</value>
</property>

如下：

4. 配置主机

修改mapred.hosts指定的文件，如下：

vim /home/hadoop/workspace/hadoop-1.2.1/conf/include

添加当前使用的主机：host1、 host2、 host3、 host4

如下：

5. 重启集群

在host3上使用如下命令：

stop-mapred.sh

如下：

在host1上使用如下命令：

stop-dfs.sh

如下：

在host1上启动dfs：

start-dfs.sh

在host3上启动mapreduce：

start-mapred.sh

如下：

时间： 2024-10-14 11:43:36

[Nutch]限制Hadoop结点连接的相关文章

全文索引-lucene，solr，nutch，hadoop之nutch与hadoop

全文索引-lucene.solr.nutch,hadoop之lucene 全文索引-lucene.solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,solr.nutch和hadoop这几个东东给具体的介绍下,但因为时间的关系.我还是仅仅写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,尽管到如今我没有真正搞过nutch和hadoop实战项目,但公司立即就要做hadoop大数据的监控了.我一直都说,要做一个有准备的人,因此我从

全文索引之nutch与hadoop（转）

原文:http://blog.csdn.net/chaofanwei/article/details/39476535 全文索引-lucene,solr,nutch,hadoop之lucene 全文索引-lucene,solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,solr,nutch和hadoop这几个东东给详细的介绍下,但由于时间的关系,我还是只写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,虽然到现在我没有真正搞过

Hadoop Client连接不能连接Azure HDInsight2.6

我们在centos6.7上安装hdinsight hadoop client,无法正常使用,报错如下: 16/04/14 05:38:23 INFO impl.MetricsConfig: loaded properties from hadoop-metrics2.properties 16/04/14 05:38:23 INFO impl.MetricsSystemImpl: Scheduled snapshot period at 10 second(s). 16/04/14 05:38:

基于Nutch和Hadoop的简易搜索引擎

最近和寝室的同学一起搭建了Hadoop的集群,实现了一个简易的本地搜索引擎,并且将其开源到了github上:https://github.com/ifuding/search-1047,接下来的几篇博文将对这个项目及其代码作一些详细的描述. 搜索原理概述 "搜索",简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合.一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值. PageRank PageRank算法有很多文章对其进行讲解,其模型类似一个马尔

[Nutch]编译hadoop出现object[]无法转换为K[]问题解决

1. 问题描述在使用JDK8编译hadoop 1.2.1的时候会出现object[]无法转换为K[]的问题,如下: 2. 问题解决 (1)打开hadoop目录下的InputSampler.java文件,路径如下: hadoop-1.2.1\src\mapred\org\apache\hadoop\mapreduce\lib\partition\InputSampler.java (2)大概319行找到如下内容: final InputFormat inf = ReflectionUtils.n

Nutch+hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯,但实践证明这是错误的--做过不等于记得怎么做,遇到过的错误也不等于今后就不是错误了.Nutch跟Hadoop的搭建困扰了我很久,但回头看看又觉得真正有些问题的其实就几个关键点,所以觉得花些时间写个简单流程,缅怀一下最近的探索,也希望能给想要搭建Nutch或hadoop的同学提供一些帮助.欢迎大家指正. 想要说明一下的是,虽然说hadoop诞生于nutch,但现在hadoop已经完全独立为一个分布式框架,我们可以简单地理解为nutch只是跑在h

Nutch+Hadoop集群搭建(转载）

1.Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫. 1.1.Nutch的组件结构 WebDB:存储网页数据和连接信息 Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索 Fetchers:检索Fetch list中的内容并下载到本地,共有两项输出:分别是连接的update 信息和内容content Updates:更新WebDB的页面检索状态 WebDB.up

solr ,hadoop ,lucene,nutch 的关系和区别

apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来nutch独立成为独立项目.nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下.nutch主要完成抓取,提取内容等工作. solr则是基于lucene的搜索界面.提供XML/HTTP 和 JSON/Python/Ruby API,提供搜

智传播客hadoop视频学习笔记(共2天)

第一天:1.答疑解惑• 就业前景• 学习hadoop要有什么基础• hadoop会像塞班一样,热一阵子吗• hadoop学习起来容易还是困难• 课堂上的学习方法(所有实验必须按照要求做,重原理.重实践)• 通过本课程能学到什么 2. 课程简介• 以真实的电信详单分析程序为主线,讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程• 通过此课程,你能 • 掌握Hadoop基本知识,进行HadoopHDFS和MapReduce应用开发,搭建Hadoop集群