【Heritrix基础教程之1】在Eclipse中配置Heritrix

一、新建项目并将Heritrix源代码导入

1、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;

2、在Eclipse下新建Java项目,取名Heritrix.1.14.4;

3、复制SRC包以下src/java目录下org和st两个目录到项目中的src包下;

4、复制SRC包下src下conf文件夹到项目根文件夹;

5、复制SRC包下lib文件夹到项目根文件夹;

6、复制ZIP包下webapps文件夹到项目根文件夹;

7、改动项目下conf下heritrix.properties文件

heritrix.version = <span style="color:#ff0000;">1.14.4</span>

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = <span style="color:#ff0000;">admin:admin</span>
heritrix.cmdline.port = <span style="color:#ff0000;">8080</span>

主要改动 version, username、password及端口号

8、在项目上右键选择构建路径->配置构建路径->库选项卡->加入Jar,将lib文件夹下的全部.jar文件选中,点击完毕!

9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选Run as->Run Configurations->Classpath->User Entries->Advanced->Add Folder->选择项目下conf目录,最后点击Run

然后,就能够从http://127.0.0.1:8080/中登录系统。

在Liunx上执行heritrix

(1)export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:/home/jediael/Heritirx1.14.4/lib/*:/home/jediael/Heritirx1.14.4/bin/*:/home/jediael/Heritirx1.14.4/conf/*

(2)cp -r webapps/ bin/

(3)cd bin

(4)java org.archive.crawler.Heritrix

注意此种方法仅仅能在本机上通过127.0.0.1来进行訪问,由于代码中写了:

final String ROOTURI = "127.0.0.1:" + Integer.toString(port);

String selfTestUrl = "http://" + ROOTURI + ‘/‘;

即仅仅用于本机測试。

二、配置爬虫任务并開始下载

1、登录系统 admin/admin

2、点击Jobs--->create new job---->with defaults

每次新建一个job,都等于创建一个新的order.xml。在Heritrix中,每一个任务相应一个order.xml,用于描写叙述任务的属性。它用于指定Job的Processor类、Frontier类、Fetcher类、抓取时的最大线程数、最长超时等属性。

3、输入基本信息,注意seeds中最后必须有一个"/"

4、选择下边的"Modules",进入Module配置页(Heritrix的扩展功能都是通过模块概念实现的,能够实现自己的模块完毕自己  想要的功能)。当中第一项 "Select Crawl Scope" 使用默认的"org.archive.crawler.deciderules.DecidingScope"     。倒数第三项 "Select Writers " 删除默认的 "org.archive.crawler.writer.ARCWriterProcessor" ,后加入  "org.archive.crawler.writer.MirrorWriterProcessor",这样运行任务的时候抓取到的页面会以镜像的方式放在本地的 文件夹结构中,而不是生成ARC存档文件。

5、选择"Modules"右边的"Submodules",在第一项内容中 "crawl-order ->scope->decide-rules->rules" 删除掉当中的 "acceptIfTranscluded" (org.archive.crawler.deciderules.TransclusionDecideRule) 的这一项抓取作用域的 规则。否则当Http请求返回301或者302时Heritrix会去抓取其它域下的网页。

6、在WUI的第二行导航栏中选择"Settings"进入Job的配置页面,当中主要改动两项:http-headers 下的user-agent 和from,他们的"PROJECT_URL_HERE" 和 "CONTACT_EMAIL_ADDRESS_HERE" 替换为自己的内容 ("PROJECT_URL_HERE" 要以 "http://" 开头)

7、在WUI的第二行导航栏中选择最右边的"Submit job"

8、在WUI的第一行导航栏中选择第一项的"Console",点击"Start",抓取任务正式開始,时间长短有网络状况和所抓取站点的 深度有关。点击"refresh"能够监控下载情况

还可点击logs等观察日志。

9、默认情况下,文件下载至"项目位置\jobs"。

三、一些说明

1、创建项目后,Heritrix中报错:sun.net.www.protocol.file.FileURLConnection,原由于sun包是受保护的包,默认仅仅有sun公司的软件才干使用。Eclipse会报错,把对保护使用waring就能够了。

过程例如以下:Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules):
-> change to warning

2、在进入module配置页,若发现全部的配置能够删除,移动,可是不能够加入和改动,没有可选的下拉框。原由于配置文件找不到,应该在classpath标签页加入配置文件的路径。

即第一部分的第9步。

3、问题: thread-10 org.archive.util.ArchiveUtils.<clinit>()
TLD list unavailable

java.lang.NullPointerException

at java.io.Reader.<init>(Unknown Source)

at java.io.InputStreamReader.<init>(Unknown Source)

at org.archive.util.ArchiveUtils.<clinit>(ArchiveUtils.java:759)

解决:将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件拷贝到project中org.archive.util包下。

四、Modules中的一些配置项

在Modules界面中,共同拥有8个选项须要配置,包含下面

1、Crawl Scope

用于配置抓取范围。选项请见下图。

依据名称能够直观的知道抓取范围,默认是BroadScope,即不限制范围。

从下拉框中选择某一项后,点击chang按键,则下拉框上面的解释会对应的发生变化,描写叙述当前选项的特征。

2、URI Frontier

用于确定待抓取的url的顺序,亦即对应的算法。默认项为BdbFrontier。

3、Pre Processors:Processors
that should run before any fetching

在抓取前,处理器对一些先决条件做的推断。比方推断robot.txt等信息,它是整个处理器链的入口。

4、Fetchers:Processors
that fetch documents using various protocols

指定解释、提取哪些类型的文件

5、Extractors:Processors
that extracts links from URIs

用于提取当前获取到文件的信息。

6、Writers:Processors
that write documents to archive files

选择保存的方式,经常使用的有2种:

org.archive.crawler.writer.MirrorWriterProcessor:保存镜像,即将文件直接下载下来。

org.archive.crawler.writer.ARCWriterProcessor:以归档的格式下载下来,此时文件不可直接查看。此项为default模块的默认选项。

7、Post Processors Processors that do cleanup and feed the Frontier with new URIs

抓取后的收尾工作。

8、Statistics Tracking

用于一些统计信息。

五、Setting中的一些配置项

改动下载文件的路径

时间: 2024-10-26 17:36:52

【Heritrix基础教程之1】在Eclipse中配置Heritrix的相关文章

在Eclipse中配置Heritrix

一.新建项目并将Heritrix源码导入 1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包: 2.在Eclipse下新建Java项目,取名Heritrix.1.14.4: 3.复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下: 4.复制SRC包下src下conf文件夹到项目根目录: 5.复制SRC包下lib文件夹到项目根目录: 6.复制ZIP包下webapps文件夹到

【Heritrix基础教程之3】Heritrix的基本架构

Heritrix可分为四大模块: 1.控制器CrawlController 2.待处理的uri列表  Frontier 3.线程池 ToeThread 4.各个步骤的处理器 (1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等. (2)Fetch Processing chain:抓取处理器. 对于每一个协议,均有一个类作支持,如FetchHTTP. (3)Extractor processing chain:内容

Python基础教程之List对象 转

Python基础教程之List对象 时间:2014-01-19    来源:服务器之家    投稿:root 1.PyListObject对象typedef struct {    PyObject_VAR_HEAD    PyObject **ob_item;    Py_ssize_t allocated;} PyListObject; PyObject_VAR_HEAD中的obsize表示该list对象含有的元素个数, 而allocated表示该list对象占用的内存空间. ob_item

Linux入门基础教程之Linux下软件安装

Linux入门基础教程之Linux下软件安装 一.在线安装: sudo apt-get install 即可安装 如果在安装完后无法用Tab键补全命令,可以执行: source ~/.zshrc APT(Advanced Packaging Tool), 包括apt-get, apt-cache, apt-cdrom等工具,APT可以自动下载,配置,安装二进制或者源代码格式的软件包,因此简化了Unix系统上管理软件的过程,Ubuntu是Debian的发行版.Debian使用的包管理工具是dpkg

OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务

OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务 OpenVAS基础知识 OpenVAS(Open Vulnerability Assessment System)是开放式漏洞评估系统,其核心部分是一个服务器.该服务器包括一套网络漏洞测试程序,可以检测远程系统和应用程序中的安全问题.OpenVAS不同与传统的漏洞扫描软件.所有的OpenVAS软件都是免费的,而且还采用了Nessus(一款强大的网络扫描工具)较早版本的一些开放插件.虽然Nessus很强大,但是该工具

Python核心编程基础教程之Python运算符、运算符优先级、表达式简介--20150717

Python核心编程基础教程之Python运算符.运算符优先级.表达式简介 1.Python运算符与表达式: (1)认识Pyhton运算符1:什么是运算符 在Python运算中,有时候我们需要对一个或者多个数字或者一个或者多个字符串进行运算操作,*,+ (2)认识Pyhton运算符2:运算符有哪些以及运算符的使用方法 + :加 - :减 * :乘 / :除 ** :幂 < :小于 > :大于 != :不等于 // :求相除的整数部分 % :求相除的余数部分 & :按位与 | :按位或

Swift2.0语言教程之Swift2.0语言中的标准函数

Swift2.0语言教程之Swift2.0语言中的标准函数 Swift2.0中的标准函数 函数除了可以根据参数列表的有无分为无参函数和有参函数,还可以从定义角度分为用户自定义函数和标准函数两种.以上的示例都是用户自定函数.Swift提供了74个标准函数,这些函数都可以直接去使用,不需要进行定义.本节将针对常用的标准函数进行详细的讲解. Swift2.0中的绝对值函数abs() abs()函数的功能是求数值的绝对值.其语法形式如下: abs(数值) 函数的返回值是一个零或者正数. [示例7-17]

【转】如何在eclipse下配置Heritrix

如何配置在eclipse下配置Heritrix 在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里.如http://extjs2.javaeye.com/blog/699751 不过这里对配置有一些进一步的说明. Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip 和

Git(一):Eclipse中配置Git

在Eclipse中配置Git: 一,由于我使用的是新版本的eclipse j2ee 4.4默认集成git,所以不用手动安装git插件 二,Eclipse配置基础信息.Windows->Preferences->Team->Git 如下图: Preferences->Team->Git->Configuration 点击Add Entry,在弹出框里面输入key和value的值 key,名字填写:user.name,value是你的名字. 邮箱:user.email  v