Nutch2.x常遇问题集锦

1、nutch2.3-snapshot中batchid为null引发的.NullPointerException异常:

Exception in thread "main" java.lang.NullPointerException
at org.apache.nutch.parse.ParserJob.getBatchIdFilter(ParserJob.java:265)
at org.apache.nutch.parse.ParserJob.run(ParserJob.java:253)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:69)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:174)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:253)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:260)

这里有点没搞懂,batchid为null是没有fetch的url,怎么会出现在parserjob中,暂时不管,我们直接忽略掉为null的batchid即可,在ParserJob.java的getBatchIdFilter函数中增加代码遇到null即return即可,如下所示:

 private MapFieldValueFilter<String, WebPage> getBatchIdFilter(String batchId) {
    if (batchId==null||batchId.equals(REPARSE.toString())
        || batchId.equals(Nutch.ALL_CRAWL_ID.toString())) {
      return null;
    }
时间: 2024-11-06 08:25:46

Nutch2.x常遇问题集锦的相关文章

。404,500等状态码集锦

一些常见的状态码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 500 - 服务器遇到错误,无法完成请求 503 - 服务器超时 下面提供 HTTP 状态码的完整列表.点击链接可了解详情.您也可以访问 HTTP 状态码上的 W3C 页获取更多信息. 一.临时响应 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态码. 100(继续)请求者应当继续提出请求.服务器返回此代码表示已收到请求的第一部分,正在等待其余部分. 101(切换协议)请求者已要求服务器切换协议,服

nutch2.1抓取中文网站

对nutch添加中文网站抓取功能. 1.中文网页抓取 A.调整mysql配置,避免存入mysql的中文出现乱码.修改 ${APACHE_NUTCH_HOME} /runtime/local/conf/gora.properties ############################### # MySQL properties            # ############################### gora.sqlstore.jdbc.driver=com.mysql.jd

AIX 5.3 Install Oracle 10g RAC 错误集锦--9i RAC present

AIX 5.3 Install Oracle 10g RAC 错误集锦--9i RAC Present 系统环境: 操作系统: AIX 5300-08 集群软件: CRS 10.2.0.1 数据库:   Oracle 10.2.0.1                     系统架构图 故障现象: 解决方法: [[email protected] tmp]# cat /etc/oratab # This file is used by ORACLE utilities.  It is creat

android开发——Eclipse环境下代码编辑最常用快捷键集锦(来了就不能空手而归)

Ctrl+D:删除光标所在行 Ctrl+/ :注释选中行 :Ctrl+\:注销选中行 Ctrl+Shift+/:注释选中的java或xml代码块: Ctrl+Shift+\:注销选中的Java或xml代码块.(形式:/*      */ 或 <!--      -->) shift + alt + j或/**+Enter(回车键):添加javadoc头注释,形如/** * * * * * */(个人更习惯用/**+Enter(回车键)) Ctrl+K:向前查找与当前选定内容相同的代码(如查找与

深度神经网络可视化工具集锦

深度神经网络可视化工具集锦 雷锋网按:原文作者zhwhong,载于作者的个人博客,雷锋网(公众号:雷锋网)经授权发布.  TensorBoard:TensorFlow集成可视化工具 GitHub官方项目:https://github.com/tensorflow/tensorflow/tree/master/tensorflow/tensorboard TensorBoard 涉及到的运算,通常是在训练庞大的深度神经网络中出现的复杂而又难以理解的运算. 为了更方便 TensorFlow 程序的理

Cocos2d-x学习资源集锦+有奖抽楼活动

大家好,事实上我是这个游戏开发版块的新任版主之中的一个,可能大家的焦点都在candycat1992女版主身上,所以我认为我应该冒个泡. 俗话说,新版主上任,三把"水"(是你自己说的吧,喂.).今天第一天上任,怎么都得贡献一下,做个样子什么的还是非常必要的(喂,太诚实了吧.) 本人主要研究的是Cocos2d-x,所以今天就来给各位提供一些关于Cocos2d-x学习的好去处吧.可能有经验的朋友都知道这些地方.这里就献给刚開始学习的人吧. PS:抽奖活动在以下一点.别急~ Cocos2d-x

Linux问题集锦

一些会遇到的问题,我会不断更新问题集锦~  1.vi / vim保存文件时遇到的问题:E212: Can't open file for writing 在vi / vim下输入w或wq!保存编辑的文件时,将会出现这种错误:E212: Can't open file for writing 用户权限问题,将用户切换到root用户即可.

JavaWeb错误处理集锦

一:起因 (1)自己接下来想走算法的路子,打算把十大算法和数学模型学习一下,算是给自己之前 JavaWeb 的一个总结: (2)记得Java算是第一个比较上手的语言了,更是用JavaWeb走过了很长的光阴,该给自己做一下小结了: (3)JavaWeb项目开发过程中的错误,总是反复出现,为了避免再次查找的不必要麻烦,在此总结一下. (4)JavaWeb编程一般性错误处理集锦 二:错误梳理 之 HTTP Status 状态码 (1)500 错误:服务器内部错误)  服务器遇到错误,无法完成请求 --

PHP盛宴——常用函数集锦

最近写了蛮多PHP,也接触到挺多常用的函数,大多都记了笔记,发个博客出来,共同学习.其实感觉学习一门语言,语法逻辑是软素质,而对语言的熟悉程度只能随着使用时间的增长而慢慢增长,当对一门语言的函数.库.特性都深深了解了,才能勉强称得上是熟练或者精通吧. 1. trim(),从字符串两端删除空白字符和其他预定义字符,当然可以删除指定的字符. 类似的还有ltrim().rtrim(). 2. __CLASS__,该常量返回该类被定义时的名字. 3. strtotime(),将任何英文文本的日期时间描述