Heritrix3.0.0启动介绍

下面开始使用Heritrix3.0.0

进 入CMD(开始->运行),进入Heritrix3.0.0所在目录,我这里是D:/heritrix/heritrix3.0.0/bin,这里 大家截图也可以看到.输入以下命令:heritrix -a admin:admin,这里会跳出一个cmd,截图如下:

就 表示你已经启动Heririx成功,然后在浏览器里输入,https://localhost:8443(注意,是https,不是http).由于 Heritrix3.0.0已通过https登录,用户名跟密码就是以上输入的admin:admin.所以不同于早期版本,我这里用的是火狐浏览器,界 面可能如下

ie等可能不一样.然后点击我已充分了解可能的风险,点添加例外,再输入用户名跟密码,也就是刚才的admin,admin后,便可以进入Heritrix3.0.0 web界面了.大概如下:

出现以上界面,就表示你可以使用Heritrix去抓取数据了,但这里还需配置Job,也就是抓取任务.

这里先大概介绍下界面:

  1. Memory 表示内存使用情况
  2. Jobs Directory:表示抓取job目录,默认是Heritrix_home/jobs
  3. rescan按钮表示扫描jobs目录,目录有改动,也就是抓取任务有增加或者删除,这里则都会显示
  4. create按钮表示创建一个Job
  5. add按钮表示添加一个已经存在的job,这里是输入这个job所在的路径

好了,这里基本上可以下载并使用Heririx了.下一篇则介绍如何配置CrawlJob,也就是抓取任务去抓取数据.

Heritrix3.0.0启动介绍

时间: 2024-08-01 11:03:46

Heritrix3.0.0启动介绍的相关文章

redis3.0 cluster功能介绍

edis从3.0开始支持集群功能.redis集群采用无中心节点方式实现,无需proxy代理,客户端直接与redis集群的每个节点连接,根据同样的hash算法计算出key对应的slot,然后直接在slot对应的redis上执行命令.在redis看来,响应时间是最苛刻的条件,增加一层带来的开销是redis不原因接受的.因此,redis实现了客户端对节点的直接访问,为了去中心化,节点之间通过gossip协议交换互相的状态,以及探测新加入的节点信息.redis集群支持动态加入节点,动态迁移slot,以及

【MongoDB】3.0 配置文件相关介绍

概述:在启动mongod和mongos时可以通过配置文件来启动控制实例.该配置文件包含的设置同等于mongod和mongos命令选项. 使用配置文件管理mongod和mongos更容易,特别是对于大规模部署.还可以在配置文件中添加注释来解释服务器设置选项. 使用配置文件:要启动mongod和mongos时使用配置文件,通过–config或者-f选项指定配置文件.例:mongod –config /etc/mongod.conf    //–config可以用-f替代mongos –config

Android 百度地图 SDK v3.0.0 (四) 离线地图功能介绍

转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/37758097 一直认为地图应用支持离线地图非常重要啊.我等移动2G屌丝,流量不易.且用且珍惜. 对于官方开发指南对于离线地图的教程,提供了两种方案: 第一.手动导入,先将从官网下载的离线包解压,把vmp目录拷入SD卡根目录下的BaiduMapSDK目录内. 好吧,我表示不能接受,无视了. 第二,接口下载方法例如以下:mOffline.start(cityid);还比較靠谱,就是

idea启动tomcat服务失败 SEVERE [RMI TCP Connection(3)-127.0.0.1] org.apache.catalina.core.ContainerBase.addChildInternal ContainerBase.addChild:

我的工程是从eclipse生成的,个人习惯用idea开发.重复了一遍以往正常的不能再正常了的导入配置,结果遇到了如下问题: SEVERE [RMI TCP Connection(3)-127.0.0.1] org.apache.catalina.core.ContainerBase.addChildInternal ContainerBase.addChild: start: org.apache.catalina.LifecycleException: Failed to start comp

[Apache]apache2不能启动的解决办法(提示could not bind to address 0.0.0.0:80)

昨晚重装了电脑,原来装的是win2003,后来中毒后杀完毒还能用就继续用着,只是运行不了新安装的软件,后来实在没办法才重装了XP,但是装完出现一个问题,系统居然装在了L盘,原来的D盘到J盘依此类推往前进了一位即从C盘到I盘~~原来的xampp装在了D盘,现在变成了C盘,打开XAMPP-Control面板,启动不了apache,后来想起apache/conf/httpd.conf里面的设置有问题,于是把所有的路径有关的设置都由原来的D:改为C:,发现还是不行,于是运行apache_start.ba

linux下apache启动问题(dummy-host.example.com does not exist, Could not..127.0.0.1 for ServerName)

一.Apache常见的启动错误及解决方法. 1.在配置虚拟主机时apache启动错误解决办法: Warning: DocumentRoot [/application/apache2.2.27/docs/dummy-host.example.com] does not exist 其实出现这个错误的主要原因报错已近很明显了,是你的httpd-vhosts.conf中多了一个如下配置: <VirtualHost *:80>    ServerAdmin [email protected]   

Hadoop 2.4.0新特性介绍

在2014年4月7日,Apache发布了Hadoop 2.4.0 .相比于hadoop 2.3.0,这个版本有了一定的改进,突出的变化可以总结为下列几点(官方文档说明): 1 支持HDFS访问控制列表(ACL,Access Control Lists) 这个特性解决了在一定情况下,文件权限访问的权限问题.其机制是基于Linux文件访问权限的特征,如果你熟悉Linux的文件访问机制,你就不用再去理解HDFS文件访问的特性了. 有了ACL特性后,对HDFS文件系统就具有了良性的扩展特性.HDFS-4

开源yYmVc项目 v 0.2 版本介绍

项目地址:https://code.csdn.net/hacke2/yymvc 本版本主要实现以下几点功能: 1.框架入口基于过滤器统一实现,action后缀动态配置 2.action配置模仿struts 3.增加action的辅助类 4.完成模型与视图的分离 ----------- 开源yYmVc项目 v 0.2 版本介绍,布布扣,bubuko.com

Beginning SDL 2.0(3) SDL介绍及BMP渲染

SDL是一个跨平台的多媒体库.为了实现跨平台,SDL提供了一个简单的界面库抽象,比如提供了SDL_Window用于表示窗口句柄,SDL_Surface.SDL_Texture.SDL_Renderer用于处理画面刷新及基本的图形绘制,提供各种事件(鼠标.键盘.游戏手柄等)输入事件.窗口消息事件用于模拟基于消息的事件处理机制.同时也提供了线程创建.销毁以及同步的机制,在此基础上上也提供了文件访问.字体渲染.多格式图片加载.混音器等扩展功能. 正是由于SDL的跨平台特性,如果你仅仅是希望知道SDL的