Nutch1.9安装

一、  Nutch安装并整合到Solr

1、下载并解压Nutch(此处使用版本1.9)      http://nutch.apache.org/

2、修改apache-nutch-1.9/conf/nutch-site.xml

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

3、添加需要爬取的urls种子,创建apache-nutch-1.9/urls/seed.txt:

此处添加一条url(如:http://www.oschina.net/

4、Nutch与Solr整合需要替换Solr Home中的Schema.xml

首先做好备份:

mv  solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

将nutch中的schema-solr4.xml copy到solr_home中,如下:

cp  apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

5、修改solr_home/solr/collection1/conf/schema.xml,

在 <field name="id"下面加上

<field name="_version_" type="long" indexed="true" stored="true"/>

由于覆盖了之前配置好的IK分词器。所以需要重新配置:

在<types>中增加如下内容:

<fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

将需要用到IK分词的字段的type值修改以上定义的name

<field name="content" type="text_ik" stored="true" indexed="true"/>

<field name="title" type="text_ik" stored="true" indexed="true"/>

<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>

<field name="anchor" type="text_ik" stored="true" indexed="true"/>

到此处配置完成。

测试爬取:

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

当完成后,打开solr的管理界面,点击query将会看到nutch爬取的数据

时间: 2024-08-27 08:33:37

Nutch1.9安装的相关文章

Nutch1.2 的安装与使用

Nutch1.2的安装与使用 1.nutch1.2下载    下载地址 http://archive.apache.org/dist/nutch/     2.nutch1.2目录   bin:用于命令行运行的文件; conf:Nutch的配置文件; lib:一些运行所需要的jar文件; plugins:存放相应的插件; src:Nutch的所有源文件; webapps:web运行相关文件; nutch-1.2.war:war是Nutch所提供的基于Tomcat的应用程序包; 3.nutch工作

(2.1)windows下Nutch1.7的安装

酒店评论情感分析系统(二)——Nutch安装 一.需求部分 Nutch是Java开发的所以需要下载Java JDK. 下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器.                                            下载地址:http://jakarta.apache.org/tomcat/ 3. Nutch的脚本都是用Linux的She

Nutch相关框架安装使用最佳指南(转帖)

Nutch相关框架安装使用最佳指南 Chinese installing and using instruction  -  The best guidance in installing and using  Nutch in China 国内首套免费的<Nutch相关框架视频教程> 土豆在线观看地址:  http://www.tudou.com/home/item_u106249539s0p1.html超清原版下载地址:  http://pan.baidu.com/share/home?u

Nutch之简介与安装

初学Nutch之简介与安装 初学Nutch之简介与安装 1.Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具.其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从 Nutch 1.3开始,其集成了这个索引架构. 1.1 Nutch的目标 Nutch 致力于让每个人能很容易,

nutch+tomcat安装详细教程

环境OracleLinux-R7-U2-Server-x86_64 tomcat8.5官网下载:http://apache.opencas.org/tomcat/tomcat-8/v8.5.0/bin/apache-tomcat-8.5.0.tar.gz nutch1.0载:http://archive.apache.org/dist/nutch/nutch-1.0.tar.gz jdk-8u77官网下载:http://download.oracle.com/otn-pub/java/jdk/8

【Apache KafKa系列之一】KafKa安装部署

kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息. 支持通过kafka服务器和消费机集群来分区消息. 支持Hadoop并行数据加载. Kafka的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据. 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因

Nutch教程中文翻译1(官方教程,中英对照)——Nutch的编译、安装和简单运行

本教程是Nutch官方教程的翻译,采用逐段翻译的方法,并加上自己的解释. 本文由精简导航提供. 本文原版发布在CSDN博客和精简导航,并且文章在持续修改和更新.其他网站出现皆为转载,转载的文章不一定完整.请浏览原网页. 本教程虽然是Nutch 1.x的教程,但是官网上Nutch2.x的教程只是告诉我们怎么去配置一些新特性.Nutch2.x的基础教程,仍在在本教程中. Introduction Apache Nutch is an open source Web crawler written i

安装Windows7系统时,提示:缺少所需的CD/DVD驱动器设备驱动程序

      测试机型:HP probook 430 g3       系统:Windows 7 Pro x64 现在笔记本电脑主板集成的USB口大多为3.0版本,而且一些厂商为了追求PC的轻薄,不再集成光驱,所以我们在安装系统时,一般只能通过U盘或U口外接光驱. 而当我们因为需要(安装OEM系统),在通过刻录软件(如UltraISO)将系统写入U盘或光盘的方式安装系统时,此时问题就可能悄悄出现了:因为Win7官方原版系统没有集成USB3.0驱动,所以可能的报错如下: 点击"浏览"或通过

Windows8.1-KB2999226-x64安装提示 此更新不适用你的计算机

如题 Windows8.1-KB2999226-x64.msu  双击安装 安装提示 此更新不适用你的计算机 . 解决方案: 放在D:\update\目录下 windows键+X  选择  命令提示符(管理员)  一定要是管理员 打开cmd 分别执行下面两句.红色部分就是自己的更新程序了.其他安装同理 例如Windows8.1-KB2919442-x64.msu 等 1    expand –F:* D:\update\Windows8.1-KB2999226-x64.msu D:\update