nutch源代码阅读心得

　　一、 org.apache.nutch.crawl.Injector

　　注入url.txt

　　url标准化

　　拦截url，进行正则校验(regex-urlfilter.txt)

　　对符合URL标准的url进行map对构造，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序和采集优先级!

　　reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边(STATUS_DB_UNFETCHED(状态意思为没有采集过))

　　二、org.apache.nutch.crawl.Generator

　　过滤不及格url (使用url过滤插件)

　　检测URL是否在有效更新时间里

　　获取URL metaData，metaData记录了url上次更新时间

　　对url进行打分

　　将url载入相应任务组(以host为分组)

　　计算url hash值

　　收集url, 直至到达 topN 指定量

　　三、 org.apache.nutch.crawl.Fetcher:

　　从segment中读取，将它放入相应的队列中，队列以queueId为分类，而queueId是由协议://ip 组成，在放入队列过程中，如果不存在队列则创建(比如javaeye的所有地址都属于这个队列：http://221.130.184.141) --> queues.addFetchItem(url, datum);

　　检查机器人协议是否允许该url被爬行(robots.txt) --> protocol.getRobotRules(fit.url, fit.datum);

　　检查url是否在有效的更新时间里 --> if (rules.getCrawlDelay() > 0)

　　针对不同协议采用不同的协议采用不同机器人，可以是http、ftp、file，这地方已经将内容保存下来(Content)。 --> protocol.getProtocolOutput(fit.url, fit.datum);

　　成功取回Content后，再次对HTTP状态进行识别(如200、404)。--> case ProtocolStatus.SUCCESS:

　　内容成功保存，进入ProtocolStatus.SUCCESS区域，在这区域里，系统对输出内容进行构造。 --> output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);

　　在内容构造过程中，调取内容解析器插件(parseUtil)，如mp3\html\pdf\word\zip\jsp\swf……。 --> this.parseUtil.parse(content); --> parsers[i].getParse(content);

　　html解析，所以只简略说明HtmlParser，HtmlParser中，会解析出text,title, outlinks, metadata。

　　text：过滤所有HTML元素;title：网页标题;outlinks：url下的所有链接;metadata：这东西分别做那么几件事情首先检测url头部的meta name="robots" 看看是否允许蜘蛛爬行，

　　其次通过对meta http-equiv refresh等属性进行识别记录，看页面是否需要转向。

　　四、 org.apache.nutch.parse.ParseSegment：

　　1，这个类逻辑就相对简单很多了哦，它对我们也是很有价值的，它只做一件事情，就是对爬行下来的Content(原始HTML)进行解析，具体解析通过插件来实现。

　　比如我们要做星货源或者是他的子栏目服饰配件货源的数据分析、数据统计就可以在这进行实现。

　　2，执行完成后，输出三个Map对解析内容、包含所有链接的分析后的结果、outlinks

　　五、org.apache.nutch.crawl.CrawlDb：

　　主要根据crawld_fatch输出更新crawldb。

　　1，map对crawld_fatch、crawldb地址进行标准化(nomalizer)和拦截操作(filte);

　　2，reduce在对两crawld_fatch和crawldb进行合并更新。

　　六、org.apache.nutch.crawl.LinkDb：

　　这个类的作用是管理新转化进来的链接映射，并列出每个url的外部链接(incoming links)。

　　1，先是对每一个url取出它的outLinks，作map操作把这个url作为每个outLinks的incoming link，

　　2，在reduce里把根据每个key来把一个url的所有incoming link都加到inlinks里。

　　3，这样就把每个url的外部链接统计出来了，注意，系统对只对外部链接进行统计，什么叫外部链接呢，就是只对不同host进行统计，

　　记住javaeye.com和biaowen.javaeye.com是两个不同的host哦。 --> boolean ignoreInternalLinks = true;

　　4，然后一步是对这些新加进来的链接进行合并。

　　七、 org.apache.nutch.crawl.Indexer：

　　这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。

　　这里的输入就比较多了，有segments下的fetch_dir,parseData和parseText，还有crawldb下的 current_dir和linkdb下的current_dir。

　　1，在这个类里，map将所有输入都装载到一个容器里边，

　　2，再到reduce进行分类处理，

　　3，实现拦截 --> this.filters.filter(doc, parse, key, fetchDatum, inlinks);

　　4，打分 --> this.scfilters.indexerScore(key, doc, dbDatum,fetchDatum, parse, inlinks, boost);

　　5，当然要把这些数据体组合成一个 lucene的document让它索引了。

　　6，在reduce里组装好后收集时是，最后在输出的OutputFormat类里进行真正的索引。

　　doc里有如下几个field

　　content(正文)

　　site (所属主地址)

　　title (标题)

　　host (host)

　　segement (属于哪个segement)

　　digest (MD5码，去重时候用到)

　　tstamp (时间戳)

　　url (当前URL地址)

　　载了一个例子：

　　doc =

　　{content=[biaowen - JavaEye技术网站首页新闻论坛博客招聘更多 ▼ 问答 ………………(内容省略)………… biaowen 永NF/ICP备05023328号],

　　site=[biaowen.javaeye.com],

　　title=[biaowen - JavaEye技术网站],

　　host=[biaowen.javaeye.com],

　　segment=[20090725083125],

　　digest=[063ba8430fa84e614ce71276e176f4ce],

　　tstamp=[20090725003318265],

　　url=[http://biaowen.javaeye.com/]}

　　八、 org.apache.nutch.crawl.DeleteDuplicates：

　　这个类的作用就是这它的名字所写的意思--去重。

　　前面索引后(当然不是一次时的情况)会有重复，所以要去重。为什么呢，在一次索引时是不重复的，可是多次抓取后就会有重复了。

　　就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准，一种是以内容的md5值为标准。

　　九、org.apache.nutch.indexer.IndexMerger：

　　这个类就相对简单了，目的将多个indexes合并为一个index，直接调用lucene方法实现!

时间： 2024-08-04 02:10:19

nutch源代码阅读心得

nutch源代码阅读心得的相关文章

OpenJDK 源代码阅读之 Collections

Notepad++源代码阅读——窗口元素组织与布局

Linux-0.11源代码阅读一加载操作系统

linux0.11 源代码阅读记录

淘宝数据库OceanBase SQL编译器部分源代码阅读--生成物理查询计划

commons-io源码阅读心得

TLD matlab源代码阅读（2）

Linux-0.11源代码阅读二实模式到保护模式

【转】Tomcat总体结构（Tomcat源代码阅读系列之二）