[Nutch]Hadoop单机伪分布模式的配置

在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备。

1. 下载hadoop

在workspace目录使用如下命令下载hadoop 1.2.1:

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

下载之后进行解压:

tar -zxvf hadoop-1.2.1.tar.gz 

2. 设置Hadoop运行环境

将hadoop的路径加入到当前用户的配置文件(.bashrc)里面:

用vim打开配置文件

vim ~/.bashrc

将doop的路径加入到PATH里面:

export PATH=/home/kandy/workspace/hadoop-1.2.1/bin:$PATH

如下:

重新登陆当前账号即可生效:

ssh localhost

查看hadoop的路径:

which hadoop

结果如下:

3. 配置hadoop运行参数

进入hadoop的根目录:

cd hadoop-1.2.1

3.1 配置core-site.xml文件

使用vim打开conf目录下的core-site.xml文件:

vim conf/core-site.xml

在文件里面加入如下内容:

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/kandy/workspace/tmp</value>
</property>

如下:

3.2 配置hdfs-site.xml

使用vim打开conf目录下面的hdfs-site.xml文件:

vim conf/hdfs-site.xml

在文件里面加入如下内容:

<property>
  <name>dfs.name.dir</name>
  <value>/home/kandy/workspace/dfs/filesystem/name</value>
</property>
<property>
  <name>dfs.data.dir</name>
  <value>/home/kandy/workspace/dfs/filesystem/data</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

如下:

3.3 配置mapred-site.xml

用vim打开conf目录下面的mapred-site.xml文件:

vim conf/mapred-site.xml

在文件里面加入如下内容:

<property>
  <name>mapred.job.tracker</name>
  <value>localhost:9001</value>
</property>
<property>
  <name>mapred.tasktracker.map.tasks.maximum</name>
  <value>2</value>
</property>
<property>
  <name>mapred.tasktracker.reduce.tasks.maximum</name>
  <value>2</value>
</property>
<property>
  <name>mapred.system.dir</name>
  <value>/home/kandy/workspace/mapreduce/system</value>
</property>
<property>
  <name>mapred.local.dir</name>
  <value>/home/kandy/workspace/mapreduce/local</value>
</property>

如下:

3.4 配置hadoop-env.sh文件

使用vim打开conf目录下面的hadoop-env.sh文件:

vim conf/hadoop-env.sh

在里面配置JAVA_HOME,加入如下内容:

export JAVA_HOME=/usr/lib/jvm/java-8-oracle

如图:

4. 格式化名称节点并启动集群

使用如下命令:

hadoop namenode -format

如下图:

从上图就可以看到相关信息。

5. 启动集群并查看WEB管理界面

5.1 启动集群

使用如下命令启动集群:

start-all.sh

如图:

使用JPS命令就可以看到多了几个进程:

有这样几个进程就表示启动成功。

5.2 查看web管理页面

访问 http://192.168.238.130:50030 可以查看 JobTracker 的运行状态:

访问 http://192.168.238.130:50060 可以查看 TaskTracker 的运行状态:

访问 http://192.168.238.130:50070 可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等:

时间: 2024-10-07 15:11:02

[Nutch]Hadoop单机伪分布模式的配置的相关文章

[Nutch]Hadoop单机伪分布式模式的使用(deploy)

在上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明. 1. 配置抓取链接 先进入nutch的deply目录: cd nutch/runtime/deploy 和在local模式一样 ,我们先建立一个urls目录,并将抓取链接放入url.txt文件里面: mkdir urls echo http://www.cnbeta.com > urls/url.txt 将链接文件放入hadoop的分布式文件系统上: hadoop fs -put ur

Hadoop:Hadoop单机伪分布式的安装和配置

http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在docker中配置的hadoop单机伪分布式[Hadoop:Hadoop单机伪分布式的安装和配置 ],并且在docker只有root用户,所有没有权限问题存在. 这里直接在linux下配置,主要是为了能用netbeans ide调试hadoop程序,并且使用的用户就是开机时登录的用户pika. 本教程配置

沉淀,再出发——在Ubuntu Kylin15.04中配置Hadoop单机/伪分布式系统经验分享

在Ubuntu Kylin15.04中配置Hadoop单机/伪分布式系统经验分享 一.工作准备 首先,明确工作的重心,在Ubuntu Kylin15.04中配置Hadoop集群,这里我是用的双系统中的Ubuntu来配制的,不是虚拟机.在网上有很多配置的方案,我看了一下Ubuntu的版本有14.x,16.x等等,唯独缺少15.x,后来我也了解到,15.x出来一段时间就被下一个版本所替代了,可能有一定的问题吧,可是我还是觉得这个版本的用起来很舒服,但是当我安装了Ubuntu kylin15.04之后

【Hadoop】在Ubuntu系统下安装Hadoop单机/伪分布式安装

Ubuntu 14.10 前方有坑: 由于之前的分布式系统电脑带不动,所以想换一个伪分布式试一试.用的是Virtualbox + Ubuntu 14.10 .结果遇到了 apt-get 源无法更新的情况,以及安装包安装不全的情况.只好咬一咬牙,又重新把系统给更新一边. apt-get 源无法更新解决方案:传送门 首先先备份源列表: sudo cp /etc/apt/sources.list /etc/apt/sources.list_backup 用编辑器打开: sudo gedit /etc/

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+Ubuntu14.04(半原创)

系统: Ubuntu 14.04 64bit Hadoop版本: Hadoop 2.5.2 (stable) JDK版本: JDK 1.6 虚拟机及Ubuntu安装 1. 下载并安装 VMware workstation 11 下载地址:https://my.vmware.com/web/vmware/info/slug/desktop_end_user_computing/vmware_workstation/11_0?wd=%20VMware%20workstation%2011%20&is

Ubuntu 安装 Hadoop(伪分布模式)

在Ubuntu14.04下安装Hadoop2.4.0 (单机模式)基础上配置 一.配置core-site.xml /usr/local/hadoop/etc/hadoop/core-site.xml 包含了hadoop启动时的配置信息. 编辑器中打开此文件 sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml 在该文件的<configuration></configuration>之间增加如下内容: <property&g

Ubuntu下 hadoop2.5.1 (伪分布模式) 配置工作

一:安装JDK hadoop 是以java语言写的,因此需要在本地计算机上预先安装JDK,安装JDK的方法这里不再详述. 二:创建hadoop用户 为hadoop创建一个专门的用户,将所有的hadoop的工作放到这个用户下. $sudo adduser hadoop 回车后会提示输入新建用户hadoop的密码,输入密码后会有一些选项确认:             Changing the user information for username            Enter the new

Hadoop 单机与完全分布式配置

Hadoop 单机模式安装配置 ? Hadoop 的单机模式安装非常简单,只需要配置好环境变量即可运行,这个模式一般用来学习和测试hadoop 的功能. 1.获取软件 http://hadoop.apache.org/ tar -xf hadoop-2.7.6.tar.gz -C ./ 2.安装配置 java 环境,安装 jps 工具 yum -y install java-1.8.0-openjdk-devel java-1.8.0-openjdk 3.设置环境变量,启劢运行 vim  etc

Ubuntu15.04单机/伪分布式安装配置Hadoop与Hive试验机

环境 系统: Ubuntu 15.04 32bit Hadoop版本: hadoop-2.5.2.tar.gz JDK版本: jdk-8u-45-linux-i586.tar.gz Hive版本:apache-hive-0.14.0-bin.tar.gz MySQL版本:Open-MySQL STEP 1:安装JDK 1.配置安装JDK,将JDK解压, tar -zxvf jdk-8u-45-linux-i586.tar.gz /usr/lib/jkd/ 2.再配置/etc/profile文件