Nutch1.2 的安装与使用

Nutch1.2的安装与使用

1、nutch1.2下载

   下载地址

http://archive.apache.org/dist/nutch/

 

 

2、nutch1.2目录

 

bin:用于命令行运行的文件;

conf:Nutch的配置文件;

lib:一些运行所需要的jar文件;

plugins:存放相应的插件;

src:Nutch的所有源文件;

webapps:web运行相关文件;

nutch-1.2.war:war是Nutch所提供的基于Tomcat的应用程序包;

3、nutch工作流程

1、将起始URL集合注入到Nutch系统之中。

2、生成片段文件,其中包括了将要抓取的URL地址。

3、根据URL地址在互联网上抓取相应的内容。

4、解析所抓取的网页,并分析其中的文本和数据。

5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。

6. 同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。

4、ubuntu搭建nutch1.2环境

 

所用软件:  jdk-6u24-linux-i586.bin

            apache-tomcat-7.0.27.tar.gz

apache-nutch-1.2-bin.tar.gz

5、ubuntu搭建nutch1.2环境

Jdk+tomcat+nutch安装可以参考下面地址,这里不在叙述。

http://blog.csdn.net/baolibin528/article/details/39207541

6、使用Nutch1.2抓取数据

1、在nutch-1.2目录下新建一个 weburls.txt 文本文件,在里面输入要抓取的网页地址

这里抓取的是淘宝的网站。

2、修改crawl-utlfilter.txt中参数

进入 nutch-1.2/conf/crawl-urlfilter.txt

MY.DOMAIN.NAME  改为  taobao.com

改为:

3、修改  nutch-1.2/conf/nutch-site.xml文件

在这里面,设置了三个参数nameversionurl

4、运行网络蜘蛛,抓取网页

进入nutch-1.2目录运行命令:

bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2

-dir = localweb  指明下载数据存放路径,该目录不存在时,会被自动创建
-deptch = 2    下载深度为2

-topN = 100    下载符合条件的前100个页面
-threads
 = 2    启动的线程数目
蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。

、、、、、、

5、nutch-1.2/localweb下生产的五个文件夹

爬行结果目录含有crawldb,index,indexes,linkdb,segment文件夹

Nutch的数据文件
crawldb:爬行数据库,用来存储所要爬行的网址
linkdb: 链接数据库
,用来存储每个网址的链接地址,包括源地址链接地址
segments: 抓取的网址
被作为一个单元,而一个segment就是一个单元。一个segment包括以下子目录:
          crawl_generate:   包含所抓取的网址列表
        crawl_fetch:     
包含每个抓取页面的状态
         content:        
包含每个抓取页面的内容
         parse_text:     
包含每个抓取页面的解析文本
         parse_data:    
包含每个页面的外部链接元数据
         crawl_parse:   
包含网址的外部链接地址,用于更新crawldb数据库
indexes:
采用Lucene的格式建立索引集
index:最终生成
目录

6、在tomcat中部署nutch 项目,把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中,稍会tomcat会对其自动解压

7、修改tomcat/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml 文件

8、修改tomcat目录下的server.xml文件

9、重启tomcat,在地址栏输入: localhost:8080/nutch-1.2

10、输入 教育,显示如下

再测试一个,输入  要啥自行车,显示如下:

至此,jdk1.6+tomcat7+nutch1.2安装配置完毕。

时间: 2024-10-03 23:15:49

Nutch1.2 的安装与使用的相关文章

(2.1)windows下Nutch1.7的安装

酒店评论情感分析系统(二)——Nutch安装 一.需求部分 Nutch是Java开发的所以需要下载Java JDK. 下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器.                                            下载地址:http://jakarta.apache.org/tomcat/ 3. Nutch的脚本都是用Linux的She

Nutch1.9安装

一.  Nutch安装并整合到Solr 1.下载并解压Nutch(此处使用版本1.9)      http://nutch.apache.org/ 2.修改apache-nutch-1.9/conf/nutch-site.xml <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> 3.添加需要爬取的urls种子,创建apa

Nutch相关框架安装使用最佳指南(转帖)

Nutch相关框架安装使用最佳指南 Chinese installing and using instruction  -  The best guidance in installing and using  Nutch in China 国内首套免费的<Nutch相关框架视频教程> 土豆在线观看地址:  http://www.tudou.com/home/item_u106249539s0p1.html超清原版下载地址:  http://pan.baidu.com/share/home?u

Nutch之简介与安装

初学Nutch之简介与安装 初学Nutch之简介与安装 1.Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具.其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从 Nutch 1.3开始,其集成了这个索引架构. 1.1 Nutch的目标 Nutch 致力于让每个人能很容易,

nutch+tomcat安装详细教程

环境OracleLinux-R7-U2-Server-x86_64 tomcat8.5官网下载:http://apache.opencas.org/tomcat/tomcat-8/v8.5.0/bin/apache-tomcat-8.5.0.tar.gz nutch1.0载:http://archive.apache.org/dist/nutch/nutch-1.0.tar.gz jdk-8u77官网下载:http://download.oracle.com/otn-pub/java/jdk/8

【Apache KafKa系列之一】KafKa安装部署

kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息. 支持通过kafka服务器和消费机集群来分区消息. 支持Hadoop并行数据加载. Kafka的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据. 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因

Nutch教程中文翻译1(官方教程,中英对照)——Nutch的编译、安装和简单运行

本教程是Nutch官方教程的翻译,采用逐段翻译的方法,并加上自己的解释. 本文由精简导航提供. 本文原版发布在CSDN博客和精简导航,并且文章在持续修改和更新.其他网站出现皆为转载,转载的文章不一定完整.请浏览原网页. 本教程虽然是Nutch 1.x的教程,但是官网上Nutch2.x的教程只是告诉我们怎么去配置一些新特性.Nutch2.x的基础教程,仍在在本教程中. Introduction Apache Nutch is an open source Web crawler written i

安装Windows7系统时,提示:缺少所需的CD/DVD驱动器设备驱动程序

      测试机型:HP probook 430 g3       系统:Windows 7 Pro x64 现在笔记本电脑主板集成的USB口大多为3.0版本,而且一些厂商为了追求PC的轻薄,不再集成光驱,所以我们在安装系统时,一般只能通过U盘或U口外接光驱. 而当我们因为需要(安装OEM系统),在通过刻录软件(如UltraISO)将系统写入U盘或光盘的方式安装系统时,此时问题就可能悄悄出现了:因为Win7官方原版系统没有集成USB3.0驱动,所以可能的报错如下: 点击"浏览"或通过

Windows8.1-KB2999226-x64安装提示 此更新不适用你的计算机

如题 Windows8.1-KB2999226-x64.msu  双击安装 安装提示 此更新不适用你的计算机 . 解决方案: 放在D:\update\目录下 windows键+X  选择  命令提示符(管理员)  一定要是管理员 打开cmd 分别执行下面两句.红色部分就是自己的更新程序了.其他安装同理 例如Windows8.1-KB2919442-x64.msu 等 1    expand –F:* D:\update\Windows8.1-KB2999226-x64.msu D:\update