nutch http file 截断问题

问题:
列表页预计抽取 355+6 但实际只抽取到220条链接. 原因是nutch对http下载的内容的长度进行了限制。

解决方案:这里将这个属性扩大10倍。
vim conf/nutch-defalut.xml 修改http.content.limit属性,将其由65536 改为 655360
<property>
  <name>http.content.limit</name>
  <value>655360</value>  -------- 这里变大一些吧,有的html确实挺大的。
  <description>The length limit for downloaded content using the http
  protocol, in bytes. If this value is nonnegative (>=0), content longer
  than it will be truncated; otherwise, no truncation at all. Do not
  confuse this setting with the file.content.limit setting.
  </description>
</property>

//div[@class=‘com_page‘]/ul/li/span/a/@href
extract 355 outlinks
//div[@class=‘page_link‘]/a/@href
extract 6 outlinks
found 361 outlinks in http://www.ly.com/news/scenery.html

修改后正常抽取
时间: 2024-08-03 14:48:55

nutch http file 截断问题的相关文章

Hadoop学习笔记(1):概念和整体架构

Hadoop简介和历史 Hadoop架构体系 Master和Slave节点 数据分析面临的问题和Hadoop思想 由于工作原因,必须学习和深入一下Hadoop,特此记录笔记. 什么是hadoop? Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架.它支持在商品硬件构建的大型集群上运行的应用程序.Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成. Hadoop框架透明地为应用提供可靠性和数据

Hadoop学习笔记_2_Hadoop源起与体系概述[续]

Hadoop源起与体系概述 Hadoop的源起--Lucene Lucene是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎 对于大数据的

hadoop_百科

一.发音是:[h?du:p]. 二.简介:Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(lar

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

一个小白的进击之路——Hadoop开篇

写给自己的话 我虽然是个计算机专业的工科男,但技术是真的不咋地(我自己觉得),越是要离开学校温暖的被窝就越能感觉到学一些东西的紧迫性,不同于学校教给我的套路,我打算自学Hadoop与Linux,希望自己能够不断进取,精进技术,最终能成为一代大神(小神也凑合). 关于Hadoop 其实在这之前我对Hadoop算是一无所知吧,只是有所耳闻,对于我们平常认识一件新事物的"三板斧"--他到底是什么.做什么.怎么用,我完全没有概念.谋定而动,胜在不懈,我会认真的对待这只欢乐的小象. Hadoop

Hadoop十年解读与发展预测

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后.本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来. “昔我十年前,与君始相识.” ——白居易,<酬元九对新栽竹有

Hadoop(一)理论体系

随着人民生活水平的提高,随着各种各类数据指数级的增长,"大数据"."互联网+"."云时代"等等各种名词已经成为当今社会的潮流,各种数据分析建立在TB,PB,EB,甚至ZB和YB数量级上,以前看似遥不可及,现在已经屡见不鲜.而如何很好的利用好这些数据,使之为我们产生巨大的商业价值,已经是当今IT界的精英们不断突破的方向.而Hadoop则是如今处理这些问题,最基础,最主流,开源并不断改进的一款分布式系统基础架构.好,我也来凑凑热闹,这篇简单讲述Had

Apache Hadoop 入门教程

原文同步至 http://waylau.com/about-hadoop/ Apache Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构.可以让用户在不了解分布式底层细节的情况下,开发出可靠.可扩展的分布式计算应用. Apache Hadoop 框架,允许用户使用简单的编程模型来实现计算机集群的大型数据集的分布式处理.它的目的是支持从单一服务器到上千台机器的扩展,充分利用了每台机器所提供本地计算和存储,而不是依靠硬件来提供高可用性.其本身被设计成在应用层检测和处理故障的库

hadoop的源起与体系介绍

1.Hadoop的源起--Lucene项目 Hadoop 是由Doug Cutting用java语言书写的开源软件,其实现与Google类似的全文搜索功能,它提供了两种全文检索引擎的架构,包括完整的查询引擎和索引引擎. Hadoop早期版本发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目. Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎. 对于大数