CentOS 6.5+Nutch 1.7+Solr 4.7+IK 2012

环境



Linux版本:CentOS 6.5

JDK版本:JDK 1.7

Nutch版本:Nutch 1.7

Solr版本:Solr 4.7

IK版本:IK-Analyzer 2012

目录



1.安装JDK

2.安装Solr

3.为Solr配置IK分词

4.安装Nutch

内容



1.安装JDK

1.1 在/usr/下创建java/目录,下载JDK包并解压

[[email protected] ~]# mkdir /usr/java 
[[email protected] ~]# cd /usr/java
[[email protected] ~]# curl -O http://download.oracle.com/otn-pub/java/jdk/7u75-b13/jdk-7u75-linux-x64.tar.gz
[[email protected] java]# tar –zxvf jdk-7u75-linux-x64.gz

1.2 设置环境变量

[[email protected] java]# vi /etc/profile

添加以下内容:

#set JDK environment
JAVA_HOME=/usr/java/jdk1.7.0_75
JRE_HOME=$JAVA_HOME/jre
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
export JAVA_HOME JRE_HOMECLASS_PATH PATH

使修改生效:

[[email protected] java]# source /etc/profile

1.3 验证

[[email protected] java# java -version

2.安装Solr

2.1 在/usr/下创建solr目录,下载Solr安装包并解压

[[email protected] ~]# mkdir /usr/solr
[[email protected] ~]# cd /usr/solr
[[email protected] solr]# curl -O http://archive.apache.org/dist/lucene/solr/4.7.0/solr-4.7.0.tgz
[[email protected] solr]# tar –zxvfsolr-4.7.0.tgz

2.2 启动Jetty

这里使用Solr自带的Jetty服务器

[[email protected] solr]# cd solr-4.7.0/example
[[email protected] example]# java -jar start.jar

2.3 验证

在浏览器输入:http://10.192.87.198:8983/solr#/collection1/query

3.为Solr配置IK分词

3.1 下载IK-Analyzer-2012

解压之后,将IKAnalyzer.cfg.xml、IKAnalyzer2012_FF.jar、stopword.dic三个文件上传到/usr/solr/solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/目录下

3.2 修改/usr/solr/solr-4.7.0/example/solr/collection1/conf/schema.xml配置文件

[[email protected] solr]# cd /usr/solr/solr-4.7.0/example/solr/collection1/conf/
[[email protected] solr]# vi schema.xml

在<type></types>中增加如下内容:

<fieldTypename="text_ik" class="solr.TextField">
 <analyzer type="index"isMaxWordLength="false"class="org.wltea.analyzer.lucene.IKAnalyzer"/>
 <analyzer type="query"isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

3.3 验证

重启Solr,打开http://10.192.87.198:8983/solr/#/collection1/analysis,测试一下:

分词结果:

4.安装Nutch

4.1 在/usr/下创建nutch目录,下载Nutch安装包并解压

[[email protected] ~]# mkdir /usr/nutch
[[email protected] ~]# cd /usr/nutch
[[email protected] nutch]# curl -O http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-bin.tar.gz
[[email protected] nutch]# tar –zxvf apache-nutch-1.7-bin.tar.gz

4.2 修改nutch-site.xml配置文件

[[email protected] nutch]# cd apache-nutch-1.7/conf
[[email protected] conf]# vi nutch-site.xml

在<configuration>..</configuration>中添加字段,如下:

<configuration>
  <property>
    <name>http.agent.name</name>
    <value>Friendly Crawler</value>
  </property>
  <property>
   <name>parser.skip.truncated</name>
    <value>false</value>
  </property>
</configuration>

4.3 修改regex-urlfilter.txt文件,设置过滤规则

[[email protected] conf]# vi nutch-site.xml

这里是以正则表达式匹配你希望爬取的网站的地址。

如下面例子,用正则表达式来限制爬虫的范围仅限于sohu.com这个域

修改前:

+.

修改后:

+^http://([a-z0-9]*\.)*sohu.com

4.4 设定所要爬取的网站

[[email protected] conf]# cd /usr/nutch/apache-nutch-1.7
[[email protected] apache-nutch-1.7]# mkdir urls
[[email protected] apache-nutch-1.7]# echo "http://www.sohu.com">urls/seed.txt

4.5 执行命令,进行爬取

[[email protected] apache-nutch-1.7]# bin/nutch crawl urls -dir crawl -depth 2 -topN 5

使用tree查看/usr/nutch/apache-nutch-1.7/crawl目录

[[email protected] apache-nutch-1.7]# tree crawl/
crawl/
├── crawldb
│   ├── current
│   │   └── part-00000
│   │       ├── data
│   │       └── index
│   └── old
│       └── part-00000
│           ├── data
│           └── index
├── linkdb
│   └── current
│       └── part-00000
│           ├── data
│           └── index
└── segments
    ├── 20150326234924
    │   ├── content
    │   │   └── part-00000
    │   │      ├── data
    │   │      └── index
    │   ├── crawl_fetch
    │   │   └── part-00000
    │   │      ├── data
    │   │      └── index
    │   ├── crawl_generate
    │   │   └── part-00000
    │   ├── crawl_parse
    │   │   └── part-00000
    │   ├── parse_data
    │   │   └── part-00000
    │   │      ├── data
    │   │      └── index
    │   └── parse_text
    │      └── part-00000
    │          ├── data
    │          └── index
    └── 20150326234933
        ├── content
        │   └── part-00000
        │      ├── data
        │      └── index
        ├── crawl_fetch
        │   └── part-00000
        │      ├── data
        │      └── index
        ├── crawl_generate
        │   └── part-00000
        ├── crawl_parse
        │   └── part-00000
        ├── parse_data
        │   └── part-00000
        │      ├── data
        │      └── index
        └── parse_text
            └── part-00000
                ├── data
                └── index

已经爬取到数据。

4.6 集成Solr

编辑/usr/solr/solr-4.7.0/example/solr/collection1/conf/schema.xml文件,在<field>…</fields>中增加如下字段:

   <fieldname="host" type="string" stored="false"indexed="true"/>
   <field name="digest"type="string" stored="true" indexed="false"/>
   <field name="segment"type="string" stored="true" indexed="false"/>
   <field name="boost"type="float" stored="true" indexed="false"/>
   <field name="tstamp"type="date" stored="true" indexed="false"/>
   <field name="anchor"type="string" stored="true" indexed="true" multiValued="true"/>
   <fieldname="cache" type="string" stored="true"indexed="false"/>

重启Solr,重新爬取

[[email protected] apache-nutch-1.7]# bin/nutch crawl urls -dir crawl -depth 2 -topN 5 -solr http://10.192.86.156:8983/solr

4.7 查看结果

在浏览器输入http://10.192.86.156:8983/solr#/collection1/query,进行查询

时间: 2024-10-11 02:01:57

CentOS 6.5+Nutch 1.7+Solr 4.7+IK 2012的相关文章

solr添加中文IK分词器,以及配置自定义词库

Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于HTTP 的管理界面.Solr已经在众多大型的网站中使用,较为成熟和稳定.Solr 包装并扩展了Lucene,所以Solr的基本上沿用了Lucene的相关术语.更重要的是,Solr 创建的索引与 Lucene搜索引擎库完全兼容.通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以

[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境

1.环境准备 1.1 软件 操作系统:Windows 10专业版 ANT版本:apache-ant-1.9.7-bin.zip JDK版本:jdk-8u65-windows-x64.exe Solr版本:solr-4.9.1.zip Nutch版本:apache-nutch-1.6-bin.tar.gz Tomcat版本:apache-tomcat-9.0.0.M8-windows-x64.zip Eclipse版本:eclipse-jee-mars-1-win32-x86_64.zip 下面是

对本地Solr服务器添加IK中文分词器实现全文检索功能

在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name.type.indexed与stored,这篇随笔将讲述通过设置type属性的值实现中文分词的检索功能 首先下载IK中文分词项目,下载地址https://code.google.com/archive/p/ik-analyzer/downloads?page=1, 其中除了含有jar包之外,还有三个相关的配置文件 第一步,将IKAnalyzer2012FF_u1.jar添加到项目的WE

如何在solr中添加ik分词器

分词技术是搜索技术里面的一块基石.很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深.但一旦涉及效果问题,分词器上就可以做很多文章.例如, 在我们实际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加规则.再一个简单的例子,如果你的优化方法就是对不同的词分权重,提高一些重点词的权重的话,你就需要依赖并理解分词器. 下面将介绍如何在solr中为core:simple的title添加分词,承接上一篇博文(http://simplelife.b

Nutch + solr 这个配合不错哦

因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现. 然后在这两个地方要注意 一是记得改Nutch过滤策略. Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则 +^http

[Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建

上一篇博文介绍了在Windows 10系统下用Cygwin搭建Nutch开发环境,本文将介绍在Ubuntu下Nutch2.3的开发环境的搭建. 1. 需要的软件及其版本 Ubuntu 15.04 hadoop 1.2.1 hbase 0.94.27 nutch 2.3 solr 4.9.1 2. 系统环境准备 2.1 安装Ubuntu操作系统 基本要求,网上也有很多,自行安装,有问题可以留言. 2.2 单独新建一个kandy用户 useradd kandy 2.3 设置密码 passwd kan

solr配置方案

http://www.sjsjw.com/kf_cloud/article/44_5945_1823.asp CentOS下用Tomcat+Zookeeper+Nginx+Solr完美搭建SolrCloud平台(一) http://www.656463.com/article/3AzeQf.htm solrCloud 4.9 分布式集群部署及注意事项 http://blog.csdn.net/nickwar/article/details/8247613 在linux上使用nginx为solr集

利用Solr服务建立的站内搜索雏形

最近看完nutch后总感觉像好好捯饬下solr,上次看到老大给我展现了下站内搜索我便久久不能忘怀.总觉着之前搭建的nutch配上solr还是有点呆板,在nutch爬取的时候就建立索引到solr服务下,然后在solr的管理界面中选择query,比如在q选项框中将"*:*"改写为"title:安徽",则在管理界面中就能看到搜索结果,可是这个与搜索引擎的感觉差远了,总感觉这些结果是被solr给套在他的管理界面中了,于是自己在网上搜索,也想整个站内搜索一样的东西,就算整不到

利用Solr服务建立的站内搜索雏形---solr1

最近看完nutch后总感觉像好好捯饬下solr,上次看到老大给我展现了下站内搜索我便久久不能忘怀.总觉着之前搭建的nutch配上solr还是有点呆板,在nutch爬取的时候就建立索引到solr服务下,然后在solr的管理界面中选择query,比如在q选项框中将“*:*”改写为“title:安徽”,则在管理界面中就能看到搜索结果,可是这个与搜索引擎的感觉差远了,总感觉这些结果是被solr给套在他的管理界面中了,于是自己在网上搜索,也想整个站内搜索一样的东西,就算整不到那么炫,只要整到在solr的管