solr配置中文分词器

可能需要连接上篇《Solr与tomcat整合

1.从http://code.google.com/p/mmseg4j/   下载mmseg4j

2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home  下的dic目录下(下面步骤3中的dicPath路径指向这个路径)。

将data里的.dic文件拷贝到dic目录

3.修改Schema.xml文件,增加下面代码(注意你需要修改的是dicPath参数):

  1. <fieldType name="textComplex" class="solr.TextField"
    >
  2. <analyzer>
  3. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/opt/solr/example/solr/dic"/>
  4. <filter class="solr.LowerCaseFilterFactory"/>
  5. </analyzer>
  6. </fieldType>
  7. <fieldType name="textMaxWord" class="solr.TextField">
  8. <analyzer>
  9. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/opt/solr/example/solr/dic"/>
  10. <filter class="solr.LowerCaseFilterFactory"/>
  11. </analyzer>
  12. </fieldType>
  13. <fieldType name="textSimple" class="solr.TextField"
    >
  14. <analyzer>
  15. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/opt/solr/example/solr/dic"/>
  16. <filter class="solr.LowerCaseFilterFactory"/>
  17. </analyzer>
  18. </fieldType>

4.关联自己的field字段即可。

时间: 2024-10-13 00:21:21

solr配置中文分词器的相关文章

Solr配置中文分词器IKAnalyzer及增删改查调用

一.配置IKAnalyzer中文分词器 Solr 版本5.2.1 IKAnalyzer2012_u6.jar报错 ,用IKAnalyzer2012_FF_hf1.jar 替换可解决 解决lucene4.0与IKAnalyzer的冲突.解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStrea

Solr配置中文分词器mmseg4j详解

针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用.我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置. 1.首先下载对应的jar包. 版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好像需要翻墙,所以大家可以到我的上传资源下载:http://download.csdn.net/downl

Solr配置中文分词器IK Analyzer详解

配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败.以下是详细步骤: 1.下载IK Analyzer. 下载地址为:http://code.google.com/p/ik-analyzer/downloads/list 但是由于本国国情,需要翻墙才能下载

solr8.2 环境搭建 配置中文分词器 ik-analyzer-solr8 详细步骤

一.下载安装Apache Solr 8.2.0 下载地址:http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上,所以下载zip压缩包即可. 下载完成后解压出来. 二.启动solr服务 进入solr-7.3.0/bin目录: Shift+右键 在此处打开命令窗口: 在控制台输入以下命令: solr start -p 9090 看到Started Solr server on port 9090. Happy searchin

我与solr(六)--solr6.0配置中文分词器IK Analyzer

转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无法进行正确的高亮显示.现在配置一下分词器来解决相关问题. solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持solr6.0这个高版本的,所以就会发送运行

solr4.5配置中文分词器mmseg4j

solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4j mmseg4j的下载地址:https://code.google.com/p/mmseg4j/ 通过以下几步就可以把mmseg4j分词器集成到solr中: 1.解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中(如果你的应用服务器下面没有solr,请参考<solr部署到tomcat>). 2.拷贝data到solr_home

Solr配置Ikanalyzer分词器

上一篇文章讲解在win系统中如何安装solr并创建一个名为test_core的Core,接下为text_core配置Ikanalyzer 分词器 1.打开text_core的instanceDir目录,并进入conf文件夹: 2.修改managed-schema文件,在里边添加如下配置: <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"

第二步solr配置中文分词IK Analyzer

1.下载IK Analyzer 2012FF_hf1.zip解压如下图:注解(IK Analyzer 2012才能支持solr4.0以上的版本) 下载地址:http://pan.baidu.com/s/1c0nMOhE 2.添加IK Analyzer 2012 FF 中文分词:把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6,webapps\solr\WEB-INF\lib的目录下,修改E:\solr\collection1\conf\s

solr 7.7.0配置中文分词器的数据类型

1 <dynamicField name="*_is" type="pints" indexed="true" stored="true"/> 2 <dynamicField name="*_s" type="string" indexed="true" stored="true" /> 3 <dynamicField