IK中文分词器配置

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。

一、版本信息

solr版本:4.7.0

需要ik-analyzer版本:IK Analyzer 2012FF_hf1

ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list

上面的连接有的人可能无法下载(需要翻墙)

下面是csdn的下载地址 http://download.csdn.net/detail/li295214001/8727497

二、配置步骤

下载压缩解压后得到如下目录结构的文件夹:

我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

修改core的schema.xml,在<types></types>配置项间加一段如下配置:

<fieldType name="text_ik" class="solr.TextField">
     <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType> 

我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer

我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

 <field name="name"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />  

三、中文分词测试

                   
IKT

text
raw_bytes
start
end
type
position

中华人民共和国
[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
0
7
CN_WORD
1

中华人民
[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]
0
4
CN_WORD
2

中华
[e4 b8 ad e5 8d 8e]
0
2
CN_WORD
3

华人
[e5 8d 8e e4 ba ba]
1
3
CN_WORD
4

人民共和国
[e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
2
7
CN_WORD
5

人民
[e4 ba ba e6 b0 91]
2
4
CN_WORD
6

共和国
[e5 85 b1 e5 92 8c e5 9b bd]
4
7
CN_WORD
7

共和
[e5 85 b1 e5 92 8c]
4
6
CN_WORD
8

国
[e5 9b bd]
6
7
CN_CHAR
9
时间: 2024-10-14 12:33:55

IK中文分词器配置的相关文章

Solr7.2.1环境搭建和配置ik中文分词器

solr7.2.1环境搭建和配置ik中文分词器 安装环境:Jdk 1.8. windows 10 安装包准备: solr 各种版本集合下载:http://archive.apache.org/dist/lucene/solr/ tomcat下载(apache-tomcat-8.5.27-windows-x64.zip):https://tomcat.apache.org/download-80.cgi 下载ik分词器:IK Analyzer 2012FF_hf1.zip,这里这个版本已经不能使用

ElasticSearch速学 - IK中文分词器远程字典设置

前面已经对"IK中文分词器"有了简单的了解:  但是可以发现不是对所有的词都能很好的区分,比如:  逼格这个词就没有分出来. 词库 实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置: https://github.com/medcl/elasticsearch-analysis-ik  修改我们es实例中ik插件的配置: cd elasticsearch-5.3.0/pl

30.IK中文分词器的安装和简单使用

在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中国人 --> 中 国 人 在中方搜索引擎领域,比较成熟和流行的,就是ik分词器. 一.在elasticsearch中安装ik中文分词器 (1)git clone https://github.com/medcl/elasticsearch-analysis-ik (

Solr6.6.0添加IK中文分词器

IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的. jar包下载链接:http://pan.baidu.com/s/1o85I15o 密码:p82g下载好之后,将IK对应的jar复制到项目的D:\tomcat\webapps\solr\WEB-INF\lib下面,然后在WEB-INF下面创建一个classes的目录,将其余三个文件(IKAnalyzer.cfg.xml , ext.dic和stopword.dic)复制到这个cl

ES ik中文分词器的安装

ik分词是一款流行的elasticsearch 中文分词器,安装ik分词器版本一定要与所安装es版本一致. 安装步骤: 1.解压ik分词器安装包到plugin目录下,并删除压缩包. 2.重启elasticsearch进程即可. 3.如果是es集群的话,每台es都需要安装ik分词器. 测试: Curl "http://ES_IP:9200/_analyze?analyzer=ik_smart&pretty=true&text=%E6%88%91%E6%98%AF%E4%B8%AD%

对本地Solr服务器添加IK中文分词器实现全文检索功能

在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name.type.indexed与stored,这篇随笔将讲述通过设置type属性的值实现中文分词的检索功能 首先下载IK中文分词项目,下载地址https://code.google.com/archive/p/ik-analyzer/downloads?page=1, 其中除了含有jar包之外,还有三个相关的配置文件 第一步,将IKAnalyzer2012FF_u1.jar添加到项目的WE

solr8.0 ik中文分词器的简单配置(二)

下载ik分词器,由于是solr8.0,一些ik分词器版本可能不兼容,以下是个人亲测可行的版本 链接:https://pan.baidu.com/s/1_Va-9af-jMcqepGQ9nWo3Q 提取码:0a3y 然后将解压出来的两个jar包放到以下路径: 其它的三个文件放到以下路径: 如果没有classes文件夹就创建一个 然后进行ik分词器的配置,编辑以下路径的managed-schema文件 将以下配置放到后边 <!-- ik分词器 --> <fieldType name=&quo

ELK---- Elasticsearch 使用ik中文分词器增加拓展热词

进入到我们ik分词器安装目录下的config目录 cd /usr/local/myapp/elasticsearch-6.4.3/plugins/ik/configvi IKAnalyzer.cfg.xml  IKAnalyzer.cfg.xml 的内容如下: <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd

ELK---- Elasticsearch 使用ik中文分词器

0.默认分词器. 默认分词器,查询的时候会把中文一个汉字当作一个关键字拆分,这样是不符合我们的需求的,所以需要安装分词器. 1.下载分词器. 当前有多种分词器可下载,据说比较好用的是IK分词器. 注意,下载分词器的时候,版本必须要与Elasticsearch安装的版本一致,否则会出现不可描述的错误. 下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases 注意: es-ik分词插件版本一定要和es安装的版本对应 之前自带