[Nutch]Hadoop单机伪分布式模式的使用(deploy)

在上一篇博文我们对Nutch进行了hadoop的配置，那么本文就对nutch的deploy模式的使用进行说明。

1. 配置抓取链接

先进入nutch的deply目录：

cd nutch/runtime/deploy

和在local模式一样，我们先建立一个urls目录，并将抓取链接放入url.txt文件里面：

mkdir urls
echo http://www.cnbeta.com > urls/url.txt

将链接文件放入hadoop的分布式文件系统上：

hadoop fs -put urls urls

从web界面就可以看到里面的内容：

将本地的urls文件删除：

rm -rf urls

2. 执行抓取操作

和在local模式执行同样的命令：

nohup bin/nutch crawl urls -dir data -depth 5 -threads 50 &

如下图：

通过查看nohup.out就可以看到相关日志：

3. 通过web管理页面查看当前执行状况

3.1 jobtracker页面

从jobtracker页面可以看到当前正在执行的job和已经完成的job。

如下为正在执行的job：

已经完成的job如下：

等整个任务完成之后，总体界面如下：

3.2 tasktracker页面

可以显示task tracker的状态，如下：

3.3 dfshealth界面

可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等。

通过点击里面的“browser the filesystem”：

可以查看hadoop分布式文件系统里面的文件：

从里面可以看到segments下面的segment：

时间： 2024-10-11 10:18:53

[Nutch]Hadoop单机伪分布式模式的使用(deploy)的相关文章

Hadoop：Hadoop单机伪分布式的安装和配置

http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在docker中配置的hadoop单机伪分布式[Hadoop:Hadoop单机伪分布式的安装和配置 ],并且在docker只有root用户,所有没有权限问题存在. 这里直接在linux下配置,主要是为了能用netbeans ide调试hadoop程序,并且使用的用户就是开机时登录的用户pika. 本教程配置

【Hadoop】在Ubuntu系统下安装Hadoop单机/伪分布式安装

Ubuntu 14.10 前方有坑: 由于之前的分布式系统电脑带不动,所以想换一个伪分布式试一试.用的是Virtualbox + Ubuntu 14.10 .结果遇到了 apt-get 源无法更新的情况,以及安装包安装不全的情况.只好咬一咬牙,又重新把系统给更新一边. apt-get 源无法更新解决方案:传送门首先先备份源列表: sudo cp /etc/apt/sources.list /etc/apt/sources.list_backup 用编辑器打开: sudo gedit /etc/

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+Ubuntu14.04(半原创)

系统: Ubuntu 14.04 64bit Hadoop版本: Hadoop 2.5.2 (stable) JDK版本: JDK 1.6 虚拟机及Ubuntu安装 1. 下载并安装 VMware workstation 11 下载地址:https://my.vmware.com/web/vmware/info/slug/desktop_end_user_computing/vmware_workstation/11_0?wd=%20VMware%20workstation%2011%20&is

[Nutch]Hadoop单机伪分布模式的配置

在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备. 1. 下载hadoop 在workspace目录使用如下命令下载hadoop 1.2.1: wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 下载之后进行解压: tar -zxvf hadoop-1.2.1

【hadoop】 hadoop 单机伪分布式安装

准备: 虚拟机(CentOS 6.9) JDK1.8 hadoop2.8.0 一.JDK安装及配置 rpm -ivh jdkxxxx 安装配置环境变量 vim /etc/profile export JAVA_HOME=/usr/java/jdk1.8.0_121 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar source /etc/profi

在RHEL 6.5上部署Hadoop 2.6伪分布式模式（单机）

第一步:安装JAVA 1.7 此步骤略过,太简单了,可参考这个: http://blog.sina.com.cn/s/blog_6a7cdcd40101b1j6.html 第二步:创建Haddop专用用户虽然使用root用户也可以部署hadoop,但从系统安全及规范的角度考虑,还是建议大家创建专用的用户(本例中为hadoop,实际中可以是任意用户名),创建用户的命令: # useradd hadoop # passwd hadoop

转载：Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

原文 http://www.powerxing.com/install-hadoop/ 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住.加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1

伪分布式模式的Hadoop环境搭建

一.本文说明: 本次测试在一台虚拟机系统上进行伪分布式搭建.Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式.Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似.唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器. 二.环境说明: 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77 备注:

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

参见:http://www.powerxing.com/install-hadoop/ 完全拷贝至上面网址环境本教程使用 Ubuntu 14.04 64位作为系统环境(Ubuntu 12.04 也行,32位.64位均可),请自行安装系统. 如果用的是 RedHat/CentOS 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置. 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,