solr4.7中文分词器（ik-analyzer）配置

solr本身对中文分词的处理不是太好，所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理，ik-analyzer就是其中一个不错的中文分词器。

一、版本信息

solr版本：4.7.0

需要ik-analyzer版本：IK Analyzer 2012FF_hf1

ik-analyzer下载地址：http://code.google.com/p/ik-analyzer/downloads/list

二、配置步骤

下载压缩解压后得到如下目录结构的文件夹：

我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面，和core的schema.xml文件一个目录。

修改core的schema.xml，在<types></types>配置项间加一段如下配置：

[html] view plain copy

<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

我们就多了一种text_ik的field类型了，该类型使用的分词器就是ik-analyzer。

我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

[html] view plain copy

<field name="name" type="text_ik" indexed="true" stored="true" multiValued="false" />

三、中文分词测试

[html] view plain copy

IKT
text
raw_bytes
start
end
type
position
中华人民共和国
[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
0
7
CN_WORD
1
中华人民
[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]
0
4
CN_WORD
2
中华
[e4 b8 ad e5 8d 8e]
0
2
CN_WORD
3
华人
[e5 8d 8e e4 ba ba]
1
3
CN_WORD
4
人民共和国
[e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
2
7
CN_WORD
5
人民
[e4 ba ba e6 b0 91]
2
4
CN_WORD
6
共和国
[e5 85 b1 e5 92 8c e5 9b bd]
4
7
CN_WORD
7
共和
[e5 85 b1 e5 92 8c]
4
6
CN_WORD
8
国
[e5 9b bd]
6
7
CN_CHAR
9

时间： 2024-08-04 21:16:56

solr4.7中文分词器（ik-analyzer）配置的相关文章

我与solr(六)--solr6.0配置中文分词器IK Analyzer

转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无法进行正确的高亮显示.现在配置一下分词器来解决相关问题. solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持solr6.0这个高版本的,所以就会发送运行

Solr配置中文分词器IK Analyzer详解

配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败.以下是详细步骤: 1.下载IK Analyzer. 下载地址为:http://code.google.com/p/ik-analyzer/downloads/list 但是由于本国国情,需要翻墙才能下载

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？

声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATION ERROR : [INFO] -------------------------------------------------------------[ERROR] No compiler i

ElasticSearch的中文分词器ik

一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用. 二.IK分词器的安装和使用 2.1.安装ik 我们可以从官方github上下载该插件,我们下载对应于我们使用的es的版本的ik,并且我们能够看到具体的安装步骤,可以有两种安装方法. 这里我们选择第一种方式: 重启es,我们就可以使用ik这个中文分词器了. 2.2.使用ik中文分词器

ElasticSearch中文分词器-IK分词器的使用

IK分词器的使用首先我们通过Postman发送GET请求查询分词效果 GET http://localhost:9200/_analyze { "text":"农业银行" } 得到如下结果,可以发现es的默认分词器无法识别中文中农业.银行这样的词汇,而是简单的将每个字拆完分为一个词,这显然不符合我们的使用要求. { "tokens": [ { "token": "农", "start_offse

es学习(三)：分词器介绍以及中文分词器ik的安装与使用

什么是分词把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8:9200/_analyze { "analyzer":"standard", "text":"good good study" } # 返回 { "tokens": [ { "token":

solr8.0 ik中文分词器的简单配置（二）

下载ik分词器,由于是solr8.0,一些ik分词器版本可能不兼容,以下是个人亲测可行的版本链接:https://pan.baidu.com/s/1_Va-9af-jMcqepGQ9nWo3Q 提取码:0a3y 然后将解压出来的两个jar包放到以下路径: 其它的三个文件放到以下路径: 如果没有classes文件夹就创建一个然后进行ik分词器的配置,编辑以下路径的managed-schema文件将以下配置放到后边  <fieldType name=&quo

Docker 安装ElasticSearch的中文分词器IK

主要问题一定要保证ElasticSearch和ElasticSearch插件的版本一致我是用的是ElasticSearch是5.6.11版本对应elasticsearch-analysis-ik-5.6.11 安装插件在线安装进入容器 docker exec -it elasticsearch /bin/bash 在线下载并安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analy

当前几个主要的Lucene中文分词器的比较

1. 基本介绍: paoding:Lucene中文分词"庖丁解牛" Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器 ik :采用了特有的"正向迭代最细粒度切分算法",多子处理器分析模式 2. 开发者及开发活跃度: paoding :qieqie.wang, google code 上最后一次代码提交:2008-06-12,svn