Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏

nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4 版本号,在cygwin下运行crawl命令进行爬取。

bin/nutch crawl urls -dir crawl -depth 3 -topN 30

爬取的流程例如以下:inject :将urls下的url文档中的url注入到数据库,generate:从数据库中取得url获取须要爬取的url队列,fetch:从url爬取队列中爬取page,parse:解析page的内容。从这里看到我须要改写的是parse对网页解析部分,parse对网页进行解析后将解析的text放入crawl/segments下相应的parse_text目录下,我们能够通过命令

bin/nutch readseg -dump crawl/segments/20120710142020 segdata

查看详细爬取的内容。

从系统的扩展点,通过实现系统中的parser扩展点,就可以实现自己的parse应用,而系统中对html页面解析是通过默认的parse-html插件实现的,这里我们为了方便(但升级nutch版本号之后就不方便了),直接在parse-html插件处进行改动。

首先我们先找到parse-html实现parser借口的getparse方法,这种方法是详细解析网页内容的。

public ParseResult getParse(Content content) {
    HTMLMetaTags metaTags = new HTMLMetaTags();

    URL base;
    try {
      base = new URL(content.getBaseUrl());
    } catch (MalformedURLException e) {
      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());
    }

    String text = "";
    String title = "";
    Outlink[] outlinks = new Outlink[0];
    Metadata metadata = new Metadata();

    // parse the content
    DocumentFragment root;
    try {
      byte[] contentInOctets = content.getContent();
      InputSource input = new InputSource(new ByteArrayInputStream(contentInOctets));

      EncodingDetector detector = new EncodingDetector(conf);
      detector.autoDetectClues(content, true);
      detector.addClue(sniffCharacterEncoding(contentInOctets), "sniffed");
      String encoding = detector.guessEncoding(content, defaultCharEncoding);

      metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);
      metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);

      input.setEncoding(encoding);
      if (LOG.isTraceEnabled()) { LOG.trace("Parsing..."); }
      root = parse(input);
    } catch (IOException e) {
      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());
    } catch (DOMException e) {
      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());
    } catch (SAXException e) {
      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());
    } catch (Exception e) {
      e.printStackTrace(LogUtil.getWarnStream(LOG));
      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());
    }

    // get meta directives
    HTMLMetaProcessor.getMetaTags(metaTags, root, base);
    if (LOG.isTraceEnabled()) {
      LOG.trace("Meta tags for " + base + ": " + metaTags.toString());
    }
    // check meta directives
    if (!metaTags.getNoIndex()) {               // okay to index
      StringBuffer sb = new StringBuffer();
      if (LOG.isTraceEnabled()) { LOG.trace("Getting text..."); }
           try {
    	  utils.getText(sb, root);// 这里是详细解析text的位置
    	  text = sb.toString();
      } catch (SAXException e) {
    	  // TODO Auto-generated catch block
    	  e.printStackTrace();
      }
      sb.setLength(0);
      if (LOG.isTraceEnabled()) { LOG.trace("Getting title..."); }
      utils.getTitle(sb, root);         // extract title
      title = sb.toString().trim();
    }

    if (!metaTags.getNoFollow()) {              // okay to follow links
      ArrayList<Outlink> l = new ArrayList<Outlink>();   // extract outlinks
      URL baseTag = utils.getBase(root);
      if (LOG.isTraceEnabled()) { LOG.trace("Getting links..."); }
      utils.getOutlinks(baseTag!=null?baseTag:base, l, root);
      outlinks = l.toArray(new Outlink[l.size()]);
      if (LOG.isTraceEnabled()) {
        LOG.trace("found "+outlinks.length+" outlinks in "+content.getUrl());
      }
    }

    ParseStatus status = new ParseStatus(ParseStatus.SUCCESS);
    if (metaTags.getRefresh()) {
      status.setMinorCode(ParseStatus.SUCCESS_REDIRECT);
      status.setArgs(new String[] {metaTags.getRefreshHref().toString(),
        Integer.toString(metaTags.getRefreshTime())});
    }
    ParseData parseData = new ParseData(status, title, outlinks,
                                        content.getMetadata(), metadata);
    ParseResult parseResult = ParseResult.createParseResult(content.getUrl(),
                                                 new ParseImpl(text, parseData));

    // run filters on parse
    ParseResult filteredParse = this.htmlParseFilters.filter(content, parseResult,
                                                             metaTags, root);
    if (metaTags.getNoCache()) {             // not okay to cache
      for (Map.Entry<org.apache.hadoop.io.Text, Parse> entry : filteredParse)
        entry.getValue().getData().getParseMeta().set(Nutch.CACHING_FORBIDDEN_KEY,
                                                      cachingPolicy);
    }
    return filteredParse;
  }

我们从代码中能够看到详细解析text的位置,我们须要改动的就是这个位置的代码了,能够通过查看源码,nutch是 通过Dom tree的方式进行解析text内容的,而我在这里为了拿到page的正文部分的内容,我选用了开源的工具boilerpipe进行正文的提取。插入如上函数的代码段为:

text = BoilerpipeUtils.getMainbodyTextByBoilerpipe(new InputSource(
    			  new ByteArrayInputStream(content.getContent())));
    	  if(text.equals("")){
    		  utils.getText(sb, root);
    	  	  text = sb.toString();
    	  	  if (LOG.isTraceEnabled()) {
    	  		  LOG.trace("Extract text using DOMContentUtils...");
    	  	  }
    	  }else if (LOG.isTraceEnabled()) {
    			  LOG.trace("Extract text using Boilerpipe...");
    	  }
    	  FileWriter fw = new FileWriter("E://mainbodypage//URLText.txt",true);
    	  fw.write("url::" + content.getUrl() + "\n");
    	  fw.write("text::" + text + "\n");
    	  fw.close();

我将相应的page的url和text内容写入到特定的path下,这样能够方便測试,如上代码段调用的静态方法类例如以下:

package org.apache.nutch.parse.html;

import org.xml.sax.InputSource;
import org.xml.sax.SAXException;

import de.l3s.boilerpipe.BoilerpipeExtractor;
import de.l3s.boilerpipe.BoilerpipeProcessingException;
import de.l3s.boilerpipe.document.TextDocument;
import de.l3s.boilerpipe.extractors.CommonExtractors;
import de.l3s.boilerpipe.sax.BoilerpipeSAXInput;

public class BoilerpipeUtils {
	public static String getMainbodyTextByBoilerpipe(InputSource is) throws BoilerpipeProcessingException, SAXException{
		final TextDocument doc = new BoilerpipeSAXInput(is).getTextDocument();
		final BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
		extractor.process(doc);
		if(doc.getContent() != null && !doc.getContent().equals(""))
			return doc.getContent();
		else
			return "";
	  }
}

因为用到了开源的工具boilerpipe,因此须要将相关的jar包放入到插件文件夹下的lib文件夹中,同一时候相应的plugin.xml配置中runtime段例如以下:

<runtime>
      <library name="parse-html.jar">
         <export name="*"/>
      </library>
      <library name="tagsoup-1.2.1.jar"/>
      <library name="boilerpipe-1.2.0.jar">
      </library>
      <library name="nekohtml-1.9.13.jar">
      </library>
      <library name="xerces-2.9.1.jar">
      </library>
   </runtime>

至此就完毕了插件的功能,在eclipse下执行build project后执行如上的crawl命令,就可以得到自己想要的正文部分的parse_text数据了,假设在cwgwin下执行crawl命令,还会报NoClassDefFound的runtimeException,找不到指定的jar包,将如上的三个jar包放入到runtime/local/lib文件夹下就可以。

然而boilerpipe的正文提取效果还存在提升的空间,不尽理想;另外也能够用针对特定站点的定制功能去提取text信息。

时间: 2024-11-09 06:33:21

Nutch 二次开发之parse正文内容的相关文章

Android开发之ContentProvider(内容提供者)

1. ContentProvider简介 当应用继承ContentProvider类,并重写该类用于提供数据和存储数据的方法,就可以向其他应用共享其数据.虽然使用其他方法也可以对外共享数据,但数据访问方式会因数据存储的方式而不同. 如:采用文件方式对外共享数据,需要进行文件操作读写数据:采用sharedpreferences共享数据,需要使用sharedpreferences API读写数据. 而使用ContentProvider共享数据的好处是统一了数据访问方式 2.通过ContentProv

PDMS二次开发之PML开发一些常见查询语句

1.查找session 以及session number var !DBname DBname !db = object db(!DBname) !session = !db.lastsession() 下面是查询结果截图 q var !db q var !sessioon.number 2.从某个时间段到当前,模型的差异文件判断模型是否发生修改,并写入文件. alpha log /$!file  overwrite DIFFERENCE $!ojbName SINCE 15:36 14 May

Openstack Nova 二次开发之Nova-extend服务实现并启动验证

 Openstack Nova 二次开发之Nova-extend service 扩展 主要是讲如何启动openstack nova-extend services,该服务用于Openstack 二次扩展及部分需求开发,例如 ,节点巡检,动态迁移(基于FUSE 文件系统实现,分布式系统,如MooseFS),文件注入,Nova 服务的自身修复,instances IO 控制,instances CPU 隔离技术实现等其他需求开发 第一章:如何create openstack nova-extend

nagios二次开发之“依据分组绘制服务图”

背景:       在nagios3.2.0版本,曾将nagios.saltstack.Thinkphp进行整合.在整合的基础之上,进行了二次开发,新增分组出图.资产管理.服务器批量管理等功能.资产的增删改查借助的是Thinkphp框架:分组出图单独写分组页面,调用pnp的接口:服务器的批量管理,依靠的是saltstack的强大的API,如下图: 图1  按业务分组出图 图2  资产管理和服务器批量管理 上述系统已应用到线上环境.接下来我们要讲述的"依据分组绘制服务图"是在nagios

Openstack 二次开发之:在windows 环境下编译Openstack-java-sdk

在windows环境下使用maven对openstack-java-sdk进行编译 编译源文件 下载源代码 git clonehttps://github.com/woorea/openstack-java-sdk.git 下载并安装gpg4win http://ftp.gpg4win.org/ 本次过程中下载的是gpg4win-2.2.2.exe 配置gpg 查看 F:\github\openstack-java-sdk>gpg --list-key gpg:C:/Users/Eric.sun

android软件开发之webView.addJavascriptInterface循环渐进【二】

说明 文章列表 android软件开发之webView.addJavascriptInterface循环渐进[一]: http://www.sollyu.com/android-software-development-webview-addjavascriptinterface-cycle-of-gradual-oneandroid软件开发之webView.addJavascriptInterface循环渐进[二]: http://www.sollyu.com/586 上一篇文章发布之后,得到

android控件开发之ExpandableListActivity(二)

android控件开发之ExpandableListActivity(二) 本博文主要讲述的是使用ExpandableListActivity创建一个类似QQ中好友列表的功能.下面我们直接来看实现的代码吧. 本实例中有一个Activity,和一个主布局文件.其他的一级目录和二级目录分别是通过重写ExpandableListActivity中的getGroupView()和getChildView()方法来实现的布局 MainActivity.java代码如下: 此Activity主要是exten

iOS 开发之 ZBarSDK 二维码扫描自定义二维码扫描页面(二)

iOS 开发之 ZBarSDK 二维码扫描自定义二维码扫描页面(二) 上一篇解决了ZBarSDK不支持64bit的问题,下面我们就可以使用ZBarSDK了. 导入ZBarSDk.h文件 附上代码: // //  MeViewController.m //  Auditory Blog // //  Created by 寒竹子 on 15/4/28. //  Copyright (c) 2015年 寒竹子. All rights reserved. // #define ScanWidth  2

UWP开发之Template10实践二:拍照功能你合理使用了吗?(TempState临时目录问题)

最近在忙Asp.Net MVC开发一直没空更新UWP这块,不过有时间的话还是需要将自己的经验和大家分享下,以求共同进步. 在上章[UWP开发之Template10实践:本地文件与照相机文件操作的MVVM实例(图文付原代码)]已经谈到了使用FileOpenPicker进行文件选择,以及CameraCaptureUI进行拍照. 对于文件选择一般进行如下设置就能实现: // 选择多个文件 FileOpenPicker openPicker = new FileOpenPicker(); openPic