[Nutch]Nutch重要命令使用说明

之前几篇博文对nucth抓取周期的几个命令做了说明，本篇博文将对nutch抓取周期以外的几个重要的命令的使用进行详细的说明。

1. mergesegs

合并多个segment为一个segment。

参数：

参数说明：

output_dir: 输出目录
dir：合并路径

命令：

bin/nutch mergesegs data2/segments_all -dir data2/segments/

合并结果：

从结果可以看出，是把三个segments合并为了一个segment。

先来看下之前3个segment相关大小：

再来看下合并的结果大小：

从结果来看，大小没有变，是因为数据量比较小，如果数据量很大的话，效果也会相当的明显。另外hadoop对于处理大文件有先天的优势，所以合并的命令有非常大的作用。

合并的命令有3个：

另外两个：mergedb和mergelinkdb的使用方法和mergesegs的使用完全一样，这里不做详细说明。

2. invertlinks

反转连接，得到每一个连接的输入连接库。

参数：

参数说明：

linkdb: linkdb路径
dir:输出路径

执行命令：

bin/nutch mergesegs data2/segments_all -dir data2/segments/

执行结果：

可以看到，在data目录下面生成了linkdb目录了：

3. parsechecker

对一个url进行源数据的解析以及文本内容的解析。

参数：

参数说明：

url：需要check的url。

执行命令：

bin/nutch parsechecker http://www.cnbeta.com

执行结果：

从执行结果可以看出有213条外链，网站签名等信息。

4. domainstats

域统计：从crwaldb中计算域名统计信息。

参数：

参数说明：

inputDirs：输入目录，为crawldb路径；
outDir：输出目录。
host|domain|suffix|tld:从小到大的范围统计。

执行命令：

bin/nutch domainstats data2/crawldb/current/ host host
bin/nutch domainstats data2/crawldb/current/ domian domain
bin/nutch domainstats data2/crawldb/current/ suffix suffix
bin/nutch domainstats data2/crawldb/current/ tld tld

执行结果如下：

再来看看4个目录里面的内容：

5. webgraph

从已经存在的segment从生成一个web graph。

参数：

参数说明：

segment:单独或者多个的segment目录；
segmentDir：使用的segment的目录；
webgraphdb：web graph 数据库路径。

执行命令：

bin/nutch webgraph -segmentDir data2/segments/ -webgraphdb data2/webgraphdb

执行结果：

6. nodedumper

查看web graph的内容。

参数：

参数说明：

asSequenceFile：是否把输出文件设置为一个序列文件；
group：根据host或者domain分组；
inlinks：根据输入连接排序；
outlinks：根据输出连接排序；
sorces：根据分数排序；
output：输出目录；
topn：根据自然顺序显示N条结果；
webgraphdb：webgraphdb目录。

执行命令：

bin/nutch nodedumper -topn 1 -inlinks -output inlinks_topn_1 -webgraphdb data2/webgraphdb

执行结果：

查看结果：

执行命令：

bin/nutch nodedumper -topn 1 -outlinks -output outlinks_topn_1 -webgraphdb data2/webgraphdb

执行结果：

查看结果：

执行命令：

bin/nutch nodedumper -topn 1 -scores -output scores_topn_1 -webgraphdb data2/webgraphdb

执行结果：

查看结果：

7. linkrank

计算分值。

参数：

参数说明：

webgraphdb：webgraphdb的路径。

执行命令：

bin/nutch linkrank -webgraphdb data2/webgraphdb

执行结果：

再来通过nodedumper看下分值：

执行命令：

bin/nutch nodedumper -scores -output after_inject_score -topn 1 -webgraphdb data2/webgraphdb

结果：

从中就可以看到分值了。

8. freegen

轻量级抓取：从文本文件里面生成一个segment，然后对这个segment进行抓取。

参数：

参数说明：

inputDir：输入路径；
segmentsDir：segments路径。

执行命令：

mkdir url2
vim url2/url.txt//输入http://cnbbeta.com
bin/nutch freegen url2 data/segments

执行结果：

可以看到生成了新的segment：

9. indexchecker

对当前所配置的索引的插件进行检查。

参数：

参数说明：

url：需要进行检查的url。

执行命令：

bin/nutch indexchecker httP://www.163.com

执行结果：

时间： 2024-10-05 05:08:08

[Nutch]Nutch重要命令使用说明的相关文章

（转载）ubuntu的update-rc.d的命令使用说明

Ubuntu或者Debian系统中update-rc.d命令,是用来更新系统启动项的脚本.这些脚本的链接位于/etc/rcN.d/目录,对应脚本位于/etc/init.d/目录.在了解update-rc.d命令之前,你需要知道的是有关Linux 系统主要启动步骤,以及Ubuntu中运行级别的知识. 一.Linux 系统主要启动步骤读取 MBR 的信息,启动 Boot Manager. 加载系统内核,启动 init 进程, init 进程是 Linux 的根进程,所有的系统进程都是它的子进程.

[Nutch]Nutch抓取过程中生成的目录内容分析

在上一篇博文中有和大家介绍了nutch爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?其实nutch在抓取的过程中会产生很多的目录,会把抓到的内容分别保存到不同的目录之中.那么,这些目录的结构的什么样的?每个目录里面又保存了哪些内容呢?本篇博文将为你揭晓. 从上一篇博文我们可以知道,nutch爬虫在执行数据抓取的过程中,在data目录下面有crawldb和segments两个目录: 下面我们对这两个目录里面的内容做详细的介绍: 1. crawldb craw

[Nutch]Nutch抓取过程分析

上一篇文章有说明nutch的按照和编译过程,本篇日志主要讲解nutch抓取的过程. 1.抓取的条件在urls目录下面建立一个文本文件url.txt,将需要抓取的连接写入,如: http://blog.tianya.cn 2.执行抓取命令在runtime/local目录下面执行如下命令: nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 & 3.抓取的过程运行抓取命令之后,会生成2个目录和1个文件: 在logs目录下面有两个

[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境

1.环境准备 1.1 软件操作系统:Windows 10专业版 ANT版本:apache-ant-1.9.7-bin.zip JDK版本:jdk-8u65-windows-x64.exe Solr版本:solr-4.9.1.zip Nutch版本:apache-nutch-1.6-bin.tar.gz Tomcat版本:apache-tomcat-9.0.0.M8-windows-x64.zip Eclipse版本:eclipse-jee-mars-1-win32-x86_64.zip 下面是

数字证书中keytool命令使用说明

这个命令一般在JDK\jre\lib\security\目录下操作 keytool常用命令 -alias 产生别名 -keystore 指定密钥库的名称(就像数据库一样的证书库,可以有很多个证书,cacerts这个文件是jre自带的, 你也可以使用其它文件名字,如果没有这个文件名字,它会创建这样一个) -storepass 指定密钥库的密码 -keypass 指定别名条目的密码 -list 显示密钥库中的证书信息 -v

sz rz命令使用说明

1) 工具说明在SecureCRT这样的ssh登录软件里, 通过在Linux界面里输入rz/sz命令来上传/下载文件. 对于RHEL5, rz/sz默认没有安装所以需要手工安装. sz: 将选定的文件发送(send)到本地机器; rz:运行该命令会弹出一个文件选择窗口, 从本地选择文件上传到服务器(receive). 下载安装包lrzsz-0.12.20.tar.gz: http://www.ohse.de/uwe/software/lrzsz.html 2) 软件包安装首先通过

GDB常用命令使用说明（一）

本文由霸气的菠萝原创,转载请注明出处:http://www.cnblogs.com/xsln/p/gdb_instructions1.html 全部关于gdb的文章索引请点这里 GDB(GNU Debugger)是在Unix以及类Unix系统下的调试工具.功能极其强大,几乎涵盖了你所需要的全部功能. GDB主要帮忙你完成下面四个方面的功能: 1.启动你的程序,可以按照你的定制要求随心所欲的运行程序. 2.可让被调试的程序在你所指定的调置的断点处停住. 3.当程序被停住时,可以检查此时你的程序中所

[转]dos命令 cd命令使用说明[图文说明]

Cddir(change directory,可以缩写为cd),其功能是显示当前目录的名称,或更改当前的目录. 应用时公带一个驱动器号(如: cd c:)在命令行cmd中输入 cd /? 可显示帮助信息如下图: 列1.根目录是驱动器的目录树状结构的顶层,要返回到根目录,在命令行输入:cd \ 执行后结果如下图: 例2.如果想返回到上一层目录,在当前命令提示符下输入cd..如下图: 例3.如果想进入下一层目录,在当前命令提示符下输入cd 目录名.在命令提示符C:\>下输入cd “documents

dos常用命令使用说明

cd 改变当前目录 sys 制作DOS系统盘 copy 拷贝文件 del 删除文件 deltree 删除目录树 dir 列文件名 diskcopy 制磁盘 edit 文本编辑 format 格式化磁盘 md 建立子目录 mem 查看内存状况 type 显示文件内容 rd 删除目录 ren 改变文件名记得多少啊,忘了就去上课看看,下面四个命令是新的,给出命令格式,你自己试试看,学电脑重要的就是摸索. cls 清屏［适用场合］屏幕上太乱了,或是屏幕上出现乱码了, 清除屏幕上显示内容但不影响