Nutch关于robot.txt的处理

在nutch中，默认情况下尊重robot.txt的配置，同时不提供配置项以忽略robot.txt。

以下是其中一个解释。即作为apache的一个开源项目，必须遵循某些规定，同时由于开放了源代码，可以简单的通过修改源代码来忽略robot.txt的限制。

From the point of view of research and crawling certain pieces of the web, and i strongly agree with you that it should be configurable. But because Nutch being an Apache project, i dismiss it (arguments available upon request). We should adhere to some ethics,
it is bad enough that we can just DoS a server by setting some options to a high level. We publish source code, it leaves the option open to everyone to change it, and i think the current situation is balanced enough.

Patching it is simple, i think we should keep it like that :)

以下为修改源代码的方法：【未验证】

修改类org.apache.nutch.fetcher.FetcherReducer.java

将以下内容注释掉：

       if (!rules.isAllowed(fit.u.toString())) {
              // unblock
              fetchQueues.finishFetchItem(fit, true);
              if (LOG.isDebugEnabled()) {
                LOG.debug("Denied by robots.txt: " + fit.url);
              }
              output(fit, null, ProtocolStatusUtils.STATUS_ROBOTS_DENIED,
                  CrawlStatus.STATUS_GONE);
              continue;
            }

时间： 2024-10-07 04:41:04

Nutch关于robot.txt的处理的相关文章

机器人排除标准 robot.txt robot exclusion standard

18.2 什么是机器人排除标准 <搜索引擎优化宝典(第2版)>第18章机器人.蜘蛛和爬虫,本章主要的内容有:什么是机器人.爬虫和蜘蛛:什么是机器人排除标准; Robots 元标签:用XML 网站地图使网页被收录.本节为大家介绍什么是机器人排除标准虫. 作者:马煜译来源:清华大学出版社|2010-07-19 21:40 移动端收藏分享开发者大赛路演 | 12月16日,技术创新,北京不见不散 18.2 什么是机器人排除标准根据前面的介绍,确实有必要对爬虫的行为做出一定的限制.这种限制称为

robot.txt

在国内,网站管理者似乎对robots.txt并没有引起多大重视,可是一些功能离开它又不能是,因此今天石家庄SEO想通过这篇文章来简单谈一下robots.txt的写作.?的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时, robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该

robots.txt的介绍和写作

目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用.本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录.所以下面这篇文章,就来介绍robots.txt的作用和写作 robots.txt基本介绍 robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问.哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件.当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots

Nutch+Lucene搜索引擎开发实践

网络拓扑图 1 网络拓扑图安装Java JDK 首先查看系统是否已经安装了其他版本的JDK,如果有,先要把其他版本的JDK卸载. 用root用户登录系统. # rpm-qa|grep gcj 显示内容其中包含下面两行信息 # java-1.6.0-openjdk-1.6.0.0-1.57.1.11.9.el6_4.i686 #java-1.7.0-openjdk-1.7.0.9-2.3.8.0.el6_4.i686 卸载 #yum -y remove java-1.6.0-openjdk #

Nutch网页抓取速度优化

Here are the things that could potentially slow down fetching 1) DNS setup 2) The number of crawlers you have, too many, too few. 3) Bandwidth limitations 4) Number of threads per host (politeness) 5) Uneven distribution of urls to fetch and politene

SEO之robots.txt

[关键词:robot.txt,sitemap,User-Agent,Disallow,Allow][声明:摘自Wikipedia] 1. 定义:robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的.有些搜索引擎会遵守这一规范,而其他则不然.通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面.2.要求: 0.robots.t

robots.txt 文件是什么？如何获取

1.robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围:如果该文件不存在,那么搜索机器人就沿着链接抓取. 另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写. robots.txt写作语

学习Python的urllib模块

urllib 模块作为Python 3 处理 URL 的组件集合,如果你有 Python 2 的知识,那么你就会注意到 Python 2 中有 urllib 和 urllib2 两个版本的模块,这些现在都是 Python 3 的 urllib 包的一部分,具体如何来体现它们之间的关系 Python 3 的 urllib 模块是一堆可以处理 URL 的组件集合.如果你有 Python 2 的知识,那么你就会注意到 Python 2 中有 urllib 和 urllib2 两个版本的模块.这些现在

基础渗透测试笔记一

1.access数据库数据库后缀名:*.mdb 打开数据库工具: 破障浏览器辅臣数据库浏览器. access注入>判断注入点> '报错 and 1=1返回正常 and 1=2返回错误 or 1=1正常 or 1=2返回错误 an 1=23错误返回错误存在注入漏洞获取基本信息: and 1=cast(version()as int) 获取数据库版本信息系统信息 and 1=cast(user||123 as int)获取当前用户名称 postgres用户相当于root用户