在上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。
我们先来看下nutch相关的命令:
从上图我们可以知道,nutch提供了很多命令帮助我们来了解当前的情况。
1. readdb
主要用于read/dump crawl db。而readdb也有很多参数可以选择:
(1)-stats
使用-stats来看出具体的状态:
从这个统计信息可以看到:
- 总共的URL为:7941个;
- retry 0次的url:7941个;
- 最小的分数为:0;
- 最大的分数为:1.0;
- 平均的分数为:2.749024E-4。
- unfetched的为:6601;
- fetched的为:1258;
- 临时重定向redir_temp为:69;
- 永久重定向redir_perm为:13;
(2)-dump
使用dump参数可以查看整个数据库。执行如下命令:
bin/nutch readdb data/crawldb -dump data/crawldb/crawl_dump
执行此命令之后会生成一个文本文件:
其中的内容大致如下:
主要存储的就是url以及其状态和相关的信息。
(3)-url
打印具体url的情况。
(4)-topN
把制定数目的url根据分值进行排序。
也会生成一个文件:part_0000,其内容如下:
2. readseg
主要用于查看segments目录下面子目录里面的内容。参数如下:
(1)-dump
查看对应的文本内容。
bin/nutch readseg -dump data/segments/20160423200417/ data/segments/20160423200417_dump -nocontent -nogenerate -noparse -noparsedata -noparsetext
(2)-list
使用如下的命令:
bin/nutch readseg -list -dir data/segments
结果如下:
(3)-get
查看segment中某一特定URL的状况,输入所有和他相关的内容。使用如下命令:
bin/nutch readseg -get data/segments/20160423200417 http://blog.tianya.cn/
结果如下:
3. readlinkdb
读取linkdb里面的数据。相关参数如下:
(1)-dump
dump出相关的内容。命令:
bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
运行之后会生成一个文本文件part-0000:
part-0000的具体内容如下:
(2)-url
查看具体url相关信息,命令如下:
bin/nutch readlinkdb data/linkdb -url http://bbs.tianya.cn/list-1018-1.shtml
输出结果如下:
到这里,关于查看Nutch生成目录(crawldb/linkdb/segments)的3个对应的命令(readdb/readseg/readlinkdb)已经介绍完毕,你会了吗?
时间: 2024-10-09 12:18:06