Solr4.10与tomcat整合并安装中文分词器

1.solr

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。

Solr可以从Solr官方网站（http://lucene.apache.org/solr/ ）下载，解压后目录如下：

bin：solr的运行脚本

contrib：solr的一些贡献软件/插件，用于增强solr的功能。

dist：该目录包含build过程中产生的war和jar文件，以及相关的依赖文件。

docs：solr的API文档

example：solr工程的例子目录：

l example/solr：

该目录是一个包含了默认配置信息的Solr的Core目录。

l example/multicore：

该目录包含了在Solr的multicore中设置的多个Core目录。

l example/webapps：

该目录中包括一个solr.war，该war可作为solr的运行实例工程。

licenses：solr相关的一些许可信息

solr 需要运行在一个Servlet容器中，Solr4.10.3要求jdk使用1.7以上；

2.Solr整合tomcat：

将dist\solr-4.10.3.war拷贝到Tomcat的webapp目录下改名为solr.war
新建 F:\data 目录，拷贝：solr-4.10.0\example\solr 文件夹到 F:\date
修改 D:\data\solr\collection1\conf\solrconfig.xml，将<dataDir>${solr.data.dir:}</dataDir> 改<dataDir>${solr.data.dir:F:/data/solr/collection1/data}</dataDir>

修改 apache-tomcat-8.0.12\webapps\solr\WEB-INF\web.xml，将

<!--
    <env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>/put/your/solr/home/here</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
    </env-entry>
   -->

改为：

<env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>F:/data/solr</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
    </env-entry>

5.拷贝example\lib\ext 目录下所有jar包到Tomcat的webapp\solr\WEB-INF\lib目录下

拷贝log4j.properties文件在 Tomcat下webapps\solr\WEB-INF目录中创建文件 classes文件夹，复制Solr目录下example\resources\log4j.properties至Tomcat下webapps\solr\WEB-INF\classes目录
启动tomcat 访问 :http://localhost:8080/solr

3.安装中文分词器
第一步：配置IKAnalyzer的jar包
拷贝IKAnalyzer的文件到Tomcat下Solr目录中

将IKAnalyzer2012FF_u1.jar拷贝到 Tomcat的webapps/solr/WEB-INF/lib 下。

第二步：IKAnalyzer的配置文件

在Tomcat的webapps/solr/WEB-INF/下创建classes目录

将IKAnalyzer.cfg.xml、ext_stopword.dic mydict.dic copy到 Tomcat的

webapps/solr/WEB-INF/classes

注意：ext_stopword.dic 和mydict.dic必须保存成无BOM的utf-8类型。

第三步：修改schema.xml文件

修改schema.xml文件

修改Solr的schema.xml文件，添加FieldType：

<fieldType name="text_ik" class="solr.TextField">

  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

第四步：设置业务系统Field

设置业务系统Field

<field name="item_title" type="text_ik" indexed="true" stored="true"/>

<field name="item_sell_point" type="text_ik" indexed="true" stored="true"/>

<field name="item_price"  type="long" indexed="true" stored="true"/>

<field name="item_image" type="string" indexed="false" stored="true" />

<field name="item_category_name" type="string" indexed="true" stored="true" />

<field name="item_desc" type="text_ik" indexed="true" stored="false" />

<field name="item_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>

<copyField source="item_title" dest="item_keywords"/>

<copyField source="item_sell_point" dest="item_keywords"/>

<copyField source="item_category_name" dest="item_keywords"/>

<copyField source="item_desc" dest="item_keywords"/>

1. 拷贝example\lib\ext 目录下所有jar包到Tomcat的webapp\solr\WEB-INF\lib目录下

时间： 2024-12-26 19:48:21

Solr4.10与tomcat整合并安装中文分词器的相关文章

Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器

solr 基本介绍 Apache Solr (读音: SOLer) 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache Solr 中存储的资源是以 Document 为对象进行存储的.每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性.Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件中使用:id进行描述.Solr是

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？

声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATION ERROR : [INFO] -------------------------------------------------------------[ERROR] No compiler i

（06）ElasticSearch 分词器介绍及安装中文分词器

分词器是用来实现分词的,从一串文本当中切分出一个一个的单词(词条),并对每个词条进行标准化处理(大小写.单复数.同义词等转换).分词器包括3部分: 1.character filter:分词之前的预处理,过滤掉html标签,特殊符号转换等. 2.tokenizer:分词, 3.token filter:标准化 ElasticSearch内置分词器: 1.standard分词器:(默认分词器)它会将词汇单元转换成小写形式,并除去停用词(a.an.the等)和标点符号,支持中文采用的方法为单字切分.

elasticsearch 安装中文分词器

发车为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用.今天我们就尝试安装下IK分词. 上车 1.去github 下载对应的分词插件https://github.com/medcl/elasticsearch-analysis-ik/releases根据不同版本下载不同的分词插件 2.到es的plugins 目录创建文件夹cd your-es-root/plugins/

Elasticsearch入门之从零开始安装ik分词器

起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST http://192.168.80.133:9200/my_index_name/my_type_name/_search { "size": 0, "query" : { "range" : { "time": { "

solr4.10.4 单机安装（并添加dataimport和中文分词器）

安装环境的准备: (这里直接给相关软件的版本号了) centos 6.4 apache-tomcat-7.0.57 solr-4.10.4 jdk1.7.0_75 jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有. 具体步骤: 1.下载solr-4.10.4,然后解压开我这里解压到 /usr/local/zip/solr-4.10.4 中(安装目录一般我都会安装在/opt/web_app安装目录自己定义创建) 2.在/opt/web_app下创建solr_server/solr

Windows下面安装和配置Solr 4.9（三）支持中文分词器

首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件, 将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib, 备注:网上很多文章使用IK中文分词器(IK_Analyzer2012_u6.jar)但是在solr-4.9.0版本中,我是一直没有配置成功.所以只能使用solr自带的中文分词器了. 在回到solr的应用程序目录(D:\Demos\Solr\

Elasticsearch安装中文分词插件ik

Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词.例如: curl -XPOST "http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人" 我们会得到这样的结果: { tokens: [ { token: text start_offset: 2 end_offset: 6 type: <ALPHANUM>

solr中文分词器IK-analyzer安装

solr本身对中文是不支持的,所以需要下载中文分词器IK-analyzer 下载地址https://code.google.com/archive/p/ik-analyzer/downloads.自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip 安装步骤: