nutch相关目录说明

Nutch数据包含3个目录结构,分别是:

1、Crawldb:用于存储Nutch将要检索的url信息,以及检索状态(是否检索、何时检索)

2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)

3、Segments:一组url的集合,他们作为一个检索单元,可用于分布式检索

Segment目录包含以下子目录信息:

(1)   crawl_generate:定义将要检索的url集合(文件类型为SequenceFile)

(2)   crawl_fetch:存储每一个url的检索状态(文件类型为MapFile)

(3)   content:存储每一个url所对应的二进制字节流(文件类型为MapFile)

(4)   parse_text:存储每一个url所解析出的文本内容(文件类型为MapFile)

(5)   parse_data:存储每一个url所解析出的元数据(文件类型为MapFile)

(6)   crawl_parse:用于及时更新crawldb中的内容(如要检索的url已不存在等情况)--文件类型为SequenceFile

注:结合Nutch的数据结构和组件结构来看,crawldb相当于WebDB,而segment相当于是fetchlists.

分布式crawl过程中,每个MapReduce Job都会生成一个segment,名称以时间来命名

时间: 2024-10-11 04:34:33

nutch相关目录说明的相关文章

Nutch相关框架安装使用最佳指南(转帖)

Nutch相关框架安装使用最佳指南 Chinese installing and using instruction  -  The best guidance in installing and using  Nutch in China 国内首套免费的<Nutch相关框架视频教程> 土豆在线观看地址:  http://www.tudou.com/home/item_u106249539s0p1.html超清原版下载地址:  http://pan.baidu.com/share/home?u

[Nutch]查看Nutch生成目录下的具体内容

在上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法. 我们先来看下nutch相关的命令: 从上图我们可以知道,nutch提供了很多命令帮助我们来了解当前的情况. 1. readdb 主要用于read/dump crawl db.而readdb也有很多参数可以选择: (1)-stats 使用-stats来看出具体的状态: 从这个统计信息可以看到: 总共的URL为:7941个: retry 0次的u

android应用相关目录的存取方式与函数解析---全

android应用基本都需要进行文件的保存工作,以前总是需要的时候从网上随便搜搜,但是没有去做一个总结,今天不能在拖了,来做个总结! 很基础的东西,小白一个,真心希望能帮到大家,错误的地方大家指点一下 我遇见的文件读取问题一般有这几个:文件保存在哪?以及如何考虑相关函数,目录权限的问题?以及删除应用之后目录是否会随之删除的问题? 一般存储的路径有三种: 比如应用的名字叫做com.android.framework 1.   /data/data/package_name/ 该目录是只对应用可见的

nutch相关异常

1.在任务一开始运行,注入Url时即出现以下错误. InjectorJob: Injecting urlDir: urls InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class. InjectorJob: java.lang.RuntimeException: job failed: name=[20140000]inject urls, jobid=job_local1

黑马程序员——ava——采用递归的方式来获取相关目录下的子目录的名称

采用递归的方式来获取相关目录下的子目录的名称 import java.io.File; //采用递归的方式来获取D盘下myjava目录下的所有子目录的名称 public class FileListDemo { public static void main(String[] args) { // 获取D盘下所有的文件目录的名称 File file = new File("E:\\myjava"); //调用自定义方法来获取所有的文件夹目录 listAll(file,0); } pri

前端相关目录

前端相关目录 HTML前端 HTML前端——CSS样式 HTML前端--各种小案例 以Python角度学习Javascript(一) Javascript之十大常用原理性样例大总结 以Python角度学习Javascript(二)之DOM Javascript样例之文档章节滚动全版(DOM) js中document.documentElement 和document.body 以及其属性 clientWidth等 五句话搞定JavaScript作用域 跨站请求伪造CSRF

IDEA中右键没有“Subversion”相关目录解决方法

当我们从SVN导出项目代码后,我们可能想要进行更新OR提交操作,但是,我们在项目代码上右键,没有发现"Subversion"的相关目录. 1.VCS -> Enabled Version Control Integration, 点击进行操作. 2.如果没有发现"VCS -> Enabled Version Control Integration"目录,此时我们发现右键的目录如下, 上图说明,我们在idea中给项目配置的版本控制工具是Git,我们需要将其

网络相关目录

网络基础必知目录 1.路由交换 2.osi七层模型 3.tcp/ip 4.arp 5.ip分类 6.局域网上网原理 7.DNS介绍 8.相关网络操作知识 9.网络及服务故障排除 一次完整的HTTP事务是怎样一个过程?

Linux运维相关目录

Linux——相关运维文档目录 yum 配置 Linux LAMP环境搭建 Centos6.7安装Apache2.4+Mysql5.6+Apache2.4 Linux搭建DNS服务器 Nginx概念及基础安装--详细讲解 Linux系统管理员面试50题 Linux_iptables Linux_DHCP服务搭建 python匹配ip正则 CRT连接缓慢方法关闭UseDNS 30个常用linux命令 关于别名(alias)的尴尬 samba服务搭建及管理 LNMP环境搭建 继续增加中