[Nutch]查看Nutch生成目录下的具体内容

上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。

我们先来看下nutch相关的命令:

从上图我们可以知道,nutch提供了很多命令帮助我们来了解当前的情况。

1. readdb

主要用于read/dump crawl db。而readdb也有很多参数可以选择:

(1)-stats

使用-stats来看出具体的状态:

从这个统计信息可以看到:

  • 总共的URL为:7941个;
  • retry 0次的url:7941个;
  • 最小的分数为:0;
  • 最大的分数为:1.0;
  • 平均的分数为:2.749024E-4。
  • unfetched的为:6601;
  • fetched的为:1258;
  • 临时重定向redir_temp为:69;
  • 永久重定向redir_perm为:13;

(2)-dump

使用dump参数可以查看整个数据库。执行如下命令:

bin/nutch readdb data/crawldb -dump data/crawldb/crawl_dump

执行此命令之后会生成一个文本文件:

其中的内容大致如下:

主要存储的就是url以及其状态和相关的信息。

(3)-url

打印具体url的情况。

(4)-topN

把制定数目的url根据分值进行排序。

也会生成一个文件:part_0000,其内容如下:

2. readseg

主要用于查看segments目录下面子目录里面的内容。参数如下:

(1)-dump

查看对应的文本内容。

bin/nutch readseg -dump data/segments/20160423200417/ data/segments/20160423200417_dump -nocontent -nogenerate -noparse -noparsedata -noparsetext

(2)-list

使用如下的命令:

bin/nutch readseg -list -dir data/segments

结果如下:

(3)-get

查看segment中某一特定URL的状况,输入所有和他相关的内容。使用如下命令:

bin/nutch readseg -get data/segments/20160423200417 http://blog.tianya.cn/

结果如下:

3. readlinkdb

读取linkdb里面的数据。相关参数如下:

(1)-dump

dump出相关的内容。命令:

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

运行之后会生成一个文本文件part-0000:

part-0000的具体内容如下:

(2)-url

查看具体url相关信息,命令如下:

bin/nutch readlinkdb data/linkdb -url http://bbs.tianya.cn/list-1018-1.shtml

输出结果如下:

到这里,关于查看Nutch生成目录(crawldb/linkdb/segments)的3个对应的命令(readdb/readseg/readlinkdb)已经介绍完毕,你会了吗?

时间: 2024-10-09 12:18:06

[Nutch]查看Nutch生成目录下的具体内容的相关文章

[转帖]如何查看windows某个目录下所有文件/文件夹的大小?

https://www.cnblogs.com/gered/p/10208281.html 挺好的工具 linux 上面 我就是使用 du -ah --max-depth=1 来查看了 windows 有这么一个好用的工具也挺好呢. 如何查看windows某个目录下所有文件/文件夹的大小? TreeSize Free绿色汉化版是一款硬盘空间管理工具,用树形描述出来,能够显示文件大小和实际占用空间数及浪费的空间等信息,让你做出相应的删除决定. 下载地址:https://www.3987.com/x

查看 /var/log目录下文件个数 命令tree 、cut

查看 /var/log目录下文件个数 方法1. [[email protected] learn_shell]# tree -L 1 /var/log/ |tail -1 5 directories, 42 files [[email protected]]# tree -L 1 /var/log/ |tail -1 |cut -d " " -f 3 42 tree参数 -L level 限制目录显示层级 cut参数 -b :以字节为单位进行分割.这些字节位置将忽略多字节字符边界,除非

利用os、hash模块生成目录下所有文件的md5

hashlib用于对字符串或者文件进行加密. 使用方法1: hashlib.md5('str').hexdigest() 使用MD5对str进行加密,使用hexdigest(),16进制的方式打印 使用方法2: md5 = hashlib.md5() md5.update('hello') 如果第一次执行update,那么就是对hello这个字符串进行MD5加密(注意,这里是累加,如果多次update,那么求得是累加的md5值) md5.hexdigest() 把md5对象保存的str,以16进

windows下查找一个目录下所有文件内容

遇到这个问题的背景是我反编译了一个apk,得到了它的source code.我在jd-gui中查找一个String时,发现查找结果严重不全,于是我想,如果不用jd-gui自带的搜索功能,而直接从源码文件夹中查找这个String就好了. 但windows自带的查找功能,只能查找目录下的文件名,而无法查找文件内容.总不能把文件一个一个都打开,然后挨个find一遍吧? 办法总是有的,答案就是万能的notepad++(我爱notpad++): 首先ctrl+f,出现文件查找的框以后,点击第三个tab,就

shell脚本,如何监控目录下的文件内容是否被修改。

第一种方法是通过cmp来进行比对[[email protected] bo]# ls 1.html 2.html 3.html 4.html 5.html 6.html 7.html 8.html 9.html cat.sh [[email protected] bo]# cat cat.sh #!/bin/bash [ ! -f /root/wyb/bo/cat.log ] && cat *.html > /root/wyb/bo/cat.log cat *.html >tm

XPS 工程目录下各文件内容

XPS Project Directories To view the XPS directory structure, refer to XPS Directory Structure Outline. __xps Contains intermediate files generated by XPS and various other tools for internal management purpose. You should not use this directory, but

统计一个目录下cpp代码行数,子目录下也能统计

1.参考 http://www.cnblogs.com/ZCplayground/p/6275365.html 方法一样.用了下面这一行神秘代码 DIR *.* /B> LIST.TXT 可以发现 DIR *.cpp /B> LIST.TXT 这样可以生成目录下cpp格式的文件记录 经过研究  我发现 把cpp去掉 DIR *. /B> LIST.TXT 这样就可以获取子目录的目录名 文章开头那个博客用了输出.bat文件并运行,在递归下出现各种问题,经过试验和改进,改为了直接运行指令,指

IO流 列出目录下所有内容-递归

package com.yyq; import java.io.*; /* * 列出指定目录下文件或者文件夹,包含子目录下的内容 * 也就是列出指定目录下的所有内容 */ public class FileDemo3 { public static void main(String[] args) { // TODO Auto-generated method stub File dir = new File("E:\\Java 视频学习\\java基础视频"); showDir(di

java 20 -3 递归之删除特定目录下的特定文件

1 /* 2 需求:删除H:\demo目录下的带内容的文件 3 分析: 4 A:封装该目录 5 B:获取该目录下所有的文件或文件夹的File数组 6 C:遍历该File数组,获取每一个File对象 7 D:判断所遍历的FIle对象 8 是否是文件夹 9 是:返回步骤B 10 不是:判断里面是否有内容 11 有:删除 12 不是:不理 13 B-D设为递归方法: 14 返回类型;void 15 参数列表:File xxx 16 出口:文件里面有内容 17 */ 18 package zl_DiGu