搭建heritrix环境

  搭建heritrix环境(windows环境)

使用方式一:直接搭建hertrix

软件下载网址:

http://sourceforge.net/projects/archive-crawler/files/archive-crawler (heritrix 1.x)/1.14.4/

下载好压缩包后,如图:

注:有两个包,带src的是源代码版本,另一个已经编译好的版本,本实例所用的为Heritrix1.14.4的源代码版本(因为需要对Heritrix 进行一些扩展,以适应本实例的需求)

安装步骤:

(1)解压下载的heritrix-1.14.2.zip的压缩包,如将其放在E:\datasource\heritrix-1.14.2.

(2)以文本方式打开conf文件下的heritrix.properties文件,在"heritrix.cmdline.admin="后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin

注:admin:admin表示账户:密码,可以任意设定,但要与后面保持一致

(3)复制conf目录下的jmxremote.password.template文件,放到根目录heritrix-1.14.2下。重命名为jmxremote.password,修改两个管理员账号内容,

motitorRole @[email protected]

controlRole @[email protected]为

修改后的内容为实际工作中使用的密码,

motitorRole admin

controlRole admin

建议:建议用notpadd++打开文件,以txt方式打开很乱

(4)将jmxremote.password改为只读属性。

注:非常重要

(5)打开bin文件,新建一个批处理文件start.bat,文件的内容是调用bin下的"heritrix.cmd",start.bat的文件内容如下:

heritrix.cmd --admin=admin:admin

(6).双击start.bat启动heritrix,产生两个窗口,运行成功后显示版本等信息。此时可以在浏览器端进行访问了。

浏览器访问:http://127.0.0.1:8080/

使用方式二:在eclipse环境中搭建heritrix

(稍微麻烦一点)

安装步骤参考网址

1.主要是heritrix环境搭建

http://www.oschina.net/question/1465651_152024?fromerr=EjPsXFzz

  1. 主要是应用heritrix进行网页抓取的一个简单示例

http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/index.html?ca=drs-#major2

写的都非常详细,非常基础,适合初学者。(本来想自己写一写,又觉得没什么意思)

本人安装时碰到的错误:

1.Can not find sun.net.www.protocol.file.FileURLConnection
解决方法:
Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning

2. 13:24:17.971 WARN!! Failed to start: [email protected]:8080

Exception in thread "main" Heritrix version: 1.14.4

org.mortbay.util.MultiException[java.net.BindException: Address already in use: JVM_Bind]

分析:可能是由于之前使用方式一已经搭建好并在网页上运行,所以出现“already in use ”

利用heritrix抓取网页关键点分析:

建立project:myself

1.设置种子:

http://hao123.com

2.HTTPHeader设置:

user-agent:Mozilla/5.0(compitable ;heritrix/1/14/4 +http://192.168.1.101)

时间: 2024-12-15 07:16:32

搭建heritrix环境的相关文章

Mac OSX (EI Capitan)搭建Caffe环境并配置python接口

Caffe是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的贾扬清.Caffe是纯粹的C++/CUDA架构,支持命令行.Python和MATLAB接口:可以在CPU和GPU直接无缝切换.我在MacbookPro(无NVIDIA显卡)上大费周章地配置了Caffe的环境,并花了许多时间配置其python接口. 一.下载Caffe github上的下载地址:https://github.com/BVLC/caffe进入到下载后的路径,并复制 Makefile.config.ex

搭建lnmp环境,部署php动态网站

搭建LNMP 前言:"N"代表Nginx与apache的作用一样,都是为了搭建网站服务器,由俄罗斯人lgor sysoev开发,其特点是占有内存少,并发能力强,单台物理服务器可支持3万-5万个并发请求,中国使用nginx网站用户有:百度.京东.新浪.网易.腾讯.淘宝等. 通过下面的实验搭建LNMP环境,部署天空影城的php动态网站 本实验在虚拟机中运行,使用Redhat6.5系统部署! 一.安装及运行 1.搭建yum仓库,安装支持软件 nginx的配置及运行需要pcre,zlib等软件

搭建 LNMP 环境

搭建 LAMP 环境 一.环境介绍 二.必装依赖软件 三.编译安装 Nginx-1.6.3 四.二进制安装 MYSQL-5.5.33 五.编译安装 PHP-5.3.27 六.检测 nginx与mysql nginx与php 是否相连 七.安装 wordpress (分别基于IP,域名访问) 一.环境介绍 搭建这个环境,所有服务都安装在一台虚拟机中,在此介绍一下我的虚拟机 CentOS-6.7-x86_64    保证虚拟机可以正常上网 IP:192.168.6.36 hostname:yuci

ubuntu16.04搭建opencv3环境

为了搭建opencv3,看了各种教程,装了卸,卸了装,多次失败后,在几篇文档的借鉴下,终于是成功搭建了环境. 首先,更新ubuntu上的一些库: sudo apt-get update sudo apt-get upgrade 其次,需要安装一些搭建opencv3的库(要在opencv3搭建前安装好) 具体需要的库如下: sudo apt-get install cmakesudo apt-get install build-essential libgtk2.0-dev libavcodec-

?搭建LAMP环境及快速部署双网站并实现基于域名的虚拟主机

本节所讲内容: 实战:搭建LAMP环境及快速部署双网站并实现基于域名的虚拟主机 LAMP架构:??? Linux+Apache+Mysql+PHP Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,共同组成了一个强大的Web应用程序平台. 一.安装需要的软件包 [[email protected] ~]# yum install httpd mysql-server mysql php php-mysql  -y ht

GNS3结合VMWORE搭建虚拟化环境的好处

GNS3结合VMWORE搭建虚拟化环境的好处 在对虚拟化进行学习和测试时,光使用VMWORE就能搭建虚拟化的测试环境.那为何还要使用GNS3模拟器呢!使用GNS3结合VMWORE的好处如下图所示: 如上图所示,假设不使用GNS3模拟的交换机时,EXSI主机之间是不能通信的,因为EXSI主机连到了不同的虚拟网络.如果要让它们之间能通信的话,使用GNS3就是一种很好的办法.总之GNS3结合VMWORE搭建虚拟化环境的好处有如下两点: GNS3能够互连不同的虚拟网络,增加实验灵活性. GNS3使得环境

使用eclipse+tomcat搭建本地环境

项目开发工具很多,这里简单介绍下使用eclipse+tomcat如何搭建本地环境. 安装开发工具如下: 1. jdk的安装参考 下载地址:http://pan.baidu.com/s/1sj9rVYX 安装参考地址:http://www.cnblogs.com/pxue/archive/2011/05/10/2042530.html 如果cmd中javac运行不了,尝试将环境变量中的path的%JAVA_HOME%路径设置为绝对路径 关键点:(设置三个环境变量) JAVA_HOME      

Netbeans搭建Android环境

原文:Netbeans搭建Android环境 Netbeans环境的搭建主要依赖于NBAndroid插件,项目地址: http://www.nbandroid.org/p/installation.html 开发机器:Windows 7 IDE:Netbeans 7.3 第一步:安装插件 启动Netbeans,在工具——插件——设置面板点击“添加”,如下图所示: 输入一个名称,URL填写:http://nbandroid.org/release72/updates/updates.xml 如果你

Linux程序设计(搭建开发环境--curses)

看官们,咱们今天要说的内容,是前面内容的一点小补充,具体的内容是:安装curses开发包,以搭建 开发环境.闲话休说,言归正转. 我们在前面说过搭建开发环境的内容,主要说了开发环境中的GCC和VIM,今天咱们会说如何搭建开发环境 中的另外一个工具:curses. curses是Linux上的一个图形库,不过我们使用的Mint只安装了库文件,没有安装与该库相关的头文件.没 有这些头文件,就不能进行相关的开发工作.因此,如果我们想使用Linux开发一些简单的图形软件的话,就 需要安装与该相关的头文件