如何在solr中添加ik分词器

分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如, 在我们实际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加规则。再一个简单的例子,如果你的优化方法就是对不同的词分权重,提高一些重点词的权重的话,你就需要依赖并理解分词器。

下面将介绍如何在solr中为core:simple的title添加分词,承接上一篇博文(http://simplelife.blog.51cto.com/9954761/1864073 ),

启动tomcat,浏览器中访问:localhost:8080/solr

如图,点击collection1中的Analysis,在Field Value (Index)中输入:我爱北京天安门,并选择Analyse Fieldname / FieldType为:title

我们知道,我是没有对默认的core:collection1的title做分词的,所以当我输入一句话时并不会被分词。

下面我就为自定义这个core:simple的标题做分词,看看做完分词之后搜索的效果是什么……敬请期待!

========================================================================================

1、下载ik分词器的jar包:http://pan.baidu.com/s/1eScBIJC

2、将下载下来的jar包复制到apache-tomcat-7.0.72\webapps\solr\WEB-INF\lib中

3、在solrhome\simple\conf下的schema.xml文件中添加fieldType:

<fieldType name="text_ik" class="solr.TextField">   
     <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

然后将field中name="title"的type修改成text_ik,如下图:

4、重启tomcat,浏览器中访问:localhost:8080/solr, 选择simple-->Analysis,重新上面的操作看效果:

如果做到这,那么恭喜你,完成了solr中ik分词器的使用。

时间: 2024-08-24 01:26:49

如何在solr中添加ik分词器的相关文章

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器?

声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATION ERROR : [INFO] -------------------------------------------------------------[ERROR] No compiler i

如何在solr中添加一个core

在上一篇博文中已经介绍了如何在tomcat中部署solr,部署完之后solr默认是有一个core的,也就是collection1,如下图: 如果想自定义一个core,该如何做呢? 本文将承接上一篇博文(http://simplelife.blog.51cto.com/9954761/1864071)继续展开! 1.在solrhome文件夹下复制一份collection1,并改名为simple,与collection1放在同一个文件夹中 2.进入simple文件夹中修改core.propertie

Solr(四)Solr实现简单的类似百度搜索高亮功能-1.配置Ik分词器

配置Ik分词器 一 效果图 二 实现此功能需要添加分词器,在这里使用比较主流的IK分词器. 1 没有配置IK分词器,用solr自带的text分词它会把一句话分成单个的字. 2 配置IK分词器,的话它会把句子分成词组 三 下载配置分词器 1 下载分词器IK 分词器下载地址: http://download.csdn.net/detail/u013292160/9926148 2 解压下载的文件 3 将ik-analyzer-solr5-5.x.jar这个jar包放入solr项目下的WEB-INF\

三、Solr多核心及分词器(IK)配置

多核心的概念 多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题. 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也不会混在一起,也容易备份. ????每个索引库通过相对独立的url访问. ? 多核心的配置 还记得solr home吗

Elasticsearch入门之从零开始安装ik分词器

起因 需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST http://192.168.80.133:9200/my_index_name/my_type_name/_search { "size": 0, "query" : { "range" : { "time": { "

solr添加中文IK分词器,以及配置自定义词库

Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于HTTP 的管理界面.Solr已经在众多大型的网站中使用,较为成熟和稳定.Solr 包装并扩展了Lucene,所以Solr的基本上沿用了Lucene的相关术语.更重要的是,Solr 创建的索引与 Lucene搜索引擎库完全兼容.通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以

搜索技术:solr+IK分词器配置

一.搭建solr服务器1.Apache官网下载solr,本次使用4.9.1版本2.解压solr,找到example,将webapps中的war包复制到tomcat的webapps下3.运行tomcat,关闭tomcat,得到解压后的solr文件夹,删除war包4.将example\lib\ext\*.jar复制到解压后的solr\WEB-INF\lib中5.将example文件下solr文件夹的地址放到步骤6的/put/your/solr/home/here位置6.修改web.xml <env-

[Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例二.

为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://www.cnblogs.com/wang-meng/p/5814798.html 8, 打开浏览器查看solr可视化界面 到了这里solr就配置好了, 可是我们的IK 分词器还没有配置呢, 如果不配IK分词器的话 它是怎样分词的呢? 我们就来先看一下:  每个字都分成了一个词, 这当然不是我们想要的结果

13.solr学习速成之IK分词器

IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包. IKAnalyzer特性 a. 算法采用"正向迭代最细粒度切分算法",支持细粒度和最大词长两种分词方式,速度最大支持80W字/秒(1600KB/秒). b. 支持多子处理器分析模式:中文.数字.字母,并兼容日文.韩文. c. 较小的内存占用,优化词库占有空间,用户可自定义扩展词库. d. 扩展lucene的扩展实现,采用歧义分析算法优化查询关键字的搜索排列组合,提高lucene检