Nutch+hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯,但实践证明这是错误的——做过不等于记得怎么做,遇到过的错误也不等于今后就不是错误了。Nutch跟Hadoop的搭建困扰了我很久,但回头看看又觉得真正有些问题的其实就几个关键点,所以觉得花些时间写个简单流程,缅怀一下最近的探索,也希望能给想要搭建Nutch或hadoop的同学提供一些帮助。欢迎大家指正。

想要说明一下的是,虽然说hadoop诞生于nutch,但现在hadoop已经完全独立为一个分布式框架,我们可以简 单地理解为nutch只是跑在hadoop基础之上的一个分布式应用程序(实现的功能是开源的搜索引擎:crawl+index+search)。根据我 的实践,Nutch+hadoop的配置关键还是在于hadoop环境的搭建。

Hadoop 环境搭建

1.     硬件环境及软件选择

硬件环境:2台Fedora虚拟机(我自己实验的时候用了4台,有两台在另外一位同学的机子上,所以现在就不占用了),机器情况如下表:


计算机名


IP


内存


角色


Namenode


172.18.218.34


1G


Namenode+datanode


Datanode1


172.18.218.44


512M


Datanode

另外,两个linux系统都创建了一个名为hadoop的用户。

至于nutch,我选择的是1.2版本,因为这个版本集成了Hadoop,不用再单独去下载Hadoop,而且兼容性较好。

下载地址:http://apache.etoak.com//nutch/ ,如果有需要,也可以从我这里拷贝。

2.     Hosts文件修改

节点之间的通信有时候会用到IP地址,有时候会用到计算机名,所以需要给出节点IP地址跟计算机名的对应,linux系统中这种对应关系体现在/etc/hosts文件中,编辑hosts文件,按“IP   计算机名”的形式把各个节点写进hosts文件。

其中::1这一行是跟IPv6相关的,不需要去理会。其中127.0.0.1这一行是要注释掉的,不然之后运行 hadoop的时候会出现“Bad connection to DFS”的错误,DFS是hadoop的文件系统。每次重启系统,hosts文件中都会自动自动加上一行127.0.0.1(原因不解),运行 hadoop之前都要把这一行kill掉才行。

对于机器datanode1,hosts文件也要做类似处理。

3.     SSH无密码访问

Hadoop集群中节点都是通过ssh相互联系,进行数据传输,我们不可能为每次连接输入访问密码(常规ssh需要访问密码),所以我们需要进行相应配置,使节点之间的ssh连接不需要密码。 我们可以通过设置密钥来实现。

首先在namenode跟datanode上安装ssh(一般情况下已经默认安装了)。

然后在所有的节点(包括namenode跟datanode)上创建公钥私钥。

创建公钥私钥命令: ssh-keygen –t rsa

期间会要求输入一些信息,直接按回车就可以。这样,在默认的路径/home/hadoop/.ssh 目录下创建私钥 id_rsa 和一个公钥 id_rsa.pub 。

对于 datanode 节点:

将自己的公钥发送到 namenode 上:

#cp id_rsa.pub  datanode1_rsa.pub

#scp  datanode1_rsa.pub  172.18.218.34:/home/hadoop/.ssh

这里需要注意,由于每个 datanode 节点都要将自己的公钥传到 namenode 的相同路径下,因此,各个 datanode 发送的公钥文件名不能相同。这里使用 cp 命令,在每台 datanode 节点上将公钥文件复制为唯一名字的文件。

对于 namenode 节点:

在收到所有 datanode 发送过来的公钥文件之后,要综合这些文件(包括自身),并将这些文件发送到每个节点上:

#cp id_rsa.pub  authorized_keys

#cat datanode1_rsa.pub >>authorized_keys

把公钥authorized_keys拷贝到所有节点的.ssh文件夹下:

#scpauthorized_keys 172.18.218.44:/home/hadoop/.ssh

这时一定要查看一下 ssh 配置是否成功,查看方式是使用 ssh 命令: ssh 其他机器 ip ,如果不需要密码就可以登录,就说明配置成功。如果还需要密码,干脆无法登录,则需要重启电脑。重启之后再次使用 ssh 命令,如果还需要密码或者无法登录,则需要重新配置一遍。

摘自:http://www.linuxidc.com/Linux/2011-12/48782.htm

http://blog.csdn.net/jackydai987/article/details/6222953

时间: 2024-12-24 04:17:46

Nutch+hadoop环境搭建的相关文章

完全分布式模式的Hadoop环境搭建

一.本文说明:本次测试在五台虚拟机系统上进行完全分布式搭建.Hadoop分布式模式是在多台机器上分布式部署,配置非常类似于伪分布式,名称节点和数据节点都分布在不同的主机上,每台数据节点上都有相应的任务调度. 二.环境说明:       虚拟软件:VM10.0       操作系统:Cent Os 6.7       hadoop版本:hadoop-2.7.2       JDK版本:jdk1.8_77备注:基于独立模式基础上搭建,参考文章:独立模式的Hadoop环境搭建. 三.基本环境配置   

伪分布式模式的Hadoop环境搭建

一.本文说明:     本次测试在一台虚拟机系统上进行伪分布式搭建.Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使 用线程模拟分布式.Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似.唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均 是一个机器. 二.环境说明:      操作系统:Cent Os 6.7      hadoop版本:hadoop-2.7.2      JDK版本:jdk1.8_77     备注:

hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7

很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我们这里就讨论完全分布式,关于搭建工具,有hadoop+CentOs+VMware,感觉各个版本还是有一点差异的. 随后可能会整理出一个常用版本,今天先说说VM的静态IP的设置吧: 关于VM,大家可能不陌生,目前也是windows系统搭建模拟hadoop环境的必要软件之一. 但是,由于有些人会经常改变

Hadoop HA + HBase环境搭建(一)————zookeeper和hadoop环境搭建

版本信息: Hadoop 2.6.3 HBase 1.0.3 JDK 1.8 Zookeeper 3.4.9 集群信息: RDFMaster 192.168.0.41 (Hadoop主节点,zk节点,HBase主节点) RDFSlave01 192.168.0.42 (Hadoop备份主节点,从节点,zk节点,HBase的RegionServer) RDFSlave02 192.168.0.43 (从节点,zk节点,HBase的RegionServer) RDFSlave03 192.168.0

分享一些Hadoop环境搭建所用到的软件

本来想用土的掉渣的语言说说hadoop配置的,因为最近总有人问我,环境搭建老出莫名其妙的问题,可是写到一半,还是决定不写了,网上教程好多好多,而大家遇到问题有很多是软件版本不对应造成的,因此我就把大家需要用到的软件给共享一下算了,不用到处去找了.不谢,请叫我活雷锋. 1.虚拟机VMWare10,用这个版本吧,我用过其他几个版本,有的时候会出错. 下载地址:http://yunpan.cn/csmATAd8zQz5W  提取码 cf10 2.CentOS6.5系统 下载地址:http://yunp

hadoop环境搭建与测试

搭建参看: http://blog.csdn.net/w13770269691/article/details/16883663/ 查看集群状态: [[email protected] bin]# hdfs dfsadmin -report Configured Capacity: 36729053184 (34.21 GB) Present Capacity: 13322559491 (12.41 GB) DFS Remaining: 13322240000 (12.41 GB) DFS Us

独立模式的Hadoop环境搭建

对于Hadoop来说,最主要的是两个方面,一个是分布式文件系统HDFS,另一个是MapReduce计算模型,搭建Hadoop的运行环境主要分为三种:独立模式环境.伪分布式环境.完全分布式环境.    一.独立模式:也叫单机模式.这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统,没有守护进程,所有程序都运行在同一个JVM中,利于调试和测试,主要用于开发环境.    二.伪分布式:hadoop运行在单机上,但是模拟了一个小的集群,运行在不同的JVM中,用不同的Java

hadoop环境搭建与測试

搭建參看: http://blog.csdn.net/w13770269691/article/details/16883663/ 查看集群状态: [[email protected] bin]# hdfs dfsadmin -report Configured Capacity: 36729053184 (34.21 GB) Present Capacity: 13322559491 (12.41 GB) DFS Remaining: 13322240000 (12.41 GB) DFS Us

linux xshell jdk hadoop(环境搭建) 虚拟机 安装(大数据搭建环境)

[hadoop是2.6.5版本  xshell是6版本 jdk是1.8.0.131 虚拟机是CentOS-6.9-x86_64-bin-DVD1.iso vmware10] 1.创建虚拟机 第一步:在VMware中创建一台新的虚拟机.如图2.2所示. 图2.2 第二步:选择"自定义安装",然后单击"下一步"按钮,如图2.3所示.  图2.3 第三步:单击"下一步" 按钮,如图2.4所示.  图2.4 第四步:选择"稍后安装操作系统&qu