在Solr中配置中文分词IKAnalyzer

云计算高级群: 292870151 交流：Hadoop、NoSQL、分布式、lucene、solr、nutch

在Solr中配置中文分词IKAnalyzer

1、在配置文件schema.xml（位置{SOLR_HOME}/config/下），配置信息如下：

<fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index">
            <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>

<filter class="solr.StopFilterFactory" ignoreCase="true"
words="stopwords.txt" enablePositionIncrements="true" />
                <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
        <analyzer type="query">
            <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>

<filter class="solr.StopFilterFactory" ignoreCase="true"
words="stopwords.txt" enablePositionIncrements="true" />
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
    </fieldType>

2、在IKAnalyzer相关的jar包（IKAnalyzer2012_u6.jar 本博客不提供下载）放在{SOLR_HOME}/lib下。

3、测试IKAnalyzer中文分词效果：

时间： 2024-11-03 03:26:35

在Solr中配置中文分词IKAnalyzer的相关文章

Solr6.5配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer (二)

之前在 Solr6.5在Centos6上的安装与配置 (一) 一文中介绍了solr6.5的安装.这篇文章主要介绍创建Solr的Core并配置中文IKAnalyzer分词和拼音检索. 一.创建Core: 1.首先在solrhome(solrhome的路径和配置见Solr6.5在Centos6上的安装与配置 (一)中solr的web.xml)中创建mycore目录; [[email protected] down]# [[email protected] down]# mkdir /down/apa

solr 5.5.1安装并配置中文分词IKAnalyzer

http://www.360doc.com/content/16/0623/17/5131531_570184594.shtml —————————————————————————————————————————————————————————— https://github.com/EugenePig/ik-analyzer-solr5

我与solr(六)--solr6.0配置中文分词器IK Analyzer

转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无法进行正确的高亮显示.现在配置一下分词器来解决相关问题. solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持solr6.0这个高版本的,所以就会发送运行

solr8.2 环境搭建配置中文分词器 ik-analyzer-solr8 详细步骤

一.下载安装Apache Solr 8.2.0 下载地址:http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上,所以下载zip压缩包即可. 下载完成后解压出来. 二.启动solr服务进入solr-7.3.0/bin目录: Shift+右键在此处打开命令窗口: 在控制台输入以下命令: solr start -p 9090 看到Started Solr server on port 9090. Happy searchin

Solr配置中文分词器IKAnalyzer及增删改查调用

一.配置IKAnalyzer中文分词器 Solr 版本5.2.1 IKAnalyzer2012_u6.jar报错 ,用IKAnalyzer2012_FF_hf1.jar 替换可解决解决lucene4.0与IKAnalyzer的冲突.解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStrea

配置solr4.10.0和中文分词IKAnalyzer

全文索引服务solr搭建.公司最近要用到.我又是个java小白.做环境的什么的不再行.就此几下操作. 大部分是看官方提供的reference.pdf来做的,也google了不少.公司还有个大哥指点....笨的可以. 环境如下 OS: centos6.5 java环境: jdk1.7.0_51 tomcat版本: apache-tomcat-7.0.55 solr版本: solr-4.10.0 中文分词插件: IKAnalyzer2012FF_u1 另需准备mysql-connector-java

全文检索引擎Solr系列——整合中文分词组件IKAnalyzer

IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理智能分词的结果是: 张三 | 说的 | 确实 | 在理最细粒度分词结果: 张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理整合IK Analyzer比mmseg4j要简单很多,下载解压缩IKAnalyzer2012FF_u1.jar放到目录:E:\solr-4.8.0\example\solr-webapp\webap

Solr配置中文分词器mmseg4j详解

针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用.我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置. 1.首先下载对应的jar包. 版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好像需要翻墙,所以大家可以到我的上传资源下载:http://download.csdn.net/downl

第二步solr配置中文分词IK Analyzer

1.下载IK Analyzer 2012FF_hf1.zip解压如下图:注解(IK Analyzer 2012才能支持solr4.0以上的版本) 下载地址:http://pan.baidu.com/s/1c0nMOhE 2.添加IK Analyzer 2012 FF 中文分词:把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6,webapps\solr\WEB-INF\lib的目录下,修改E:\solr\collection1\conf\s

猜你喜欢

Ubuntu 14.10 忘记密码的解决方法

修复系统密码的步骤如下: 1.点击右上角设置图标,选择"关机",弹出的按钮选择"重启": 2.按住shift,进入grub菜单,选择第二项"高级选项& ...

2014-05-14

我的脾气一直都不好, 希望自己能做到共苦-不再挑剔- 2014-05-14,布布扣,bubuko.com

iOS：iOS10和Xcode8 一起创建Siri 功能

前奏: iOS 10 出来之后,我们开发者也可以使用类似Siri的功能.它是使用Siri里面的一个语音识别框架Speech framework来处理siri的.现在, 让我们来看看一些主要的代码吧 ...

使用svcutil.exe 工具来生成调用文件

svcutil.exe http://localhost:9065/ServiceDemo.svc?wsdl 这将生成一个配置文件和一个包含客户端类的代码文件. 下面我们就用这个是怎么生成的: 1,打 ...

gcc内嵌汇编

恩,首先说明本文仅针对gcc.其他编译器请无视本文. 有时候我们希望在C/C++代码中使用嵌入式汇编,因为C中没有对应的函数或语法可用.比如我最近在ARM上写FIR程序时,需要对最后的结果进行饱和处理 ...

Codility上的问题(35) Neon 2014

也是比较有意思的题,越来越数学了--不善于做这种题. 如图一个码头有N个木桩,用于拴住船,码头长度是M,可以理解未0到M的线段.有N调船,每条船的一半长度为X,所以船长是2 * X.每个船的中心必须拴 ...

JSP页面输出的几种方式：

1. 内置九大对象之out 下载图片 2. <%= %> JSP输出表达式 JSP中出现大量脚本 3. response.getWriter() n ...

c++不允许指向常量的指针赋值给不指向常量的指针

#include <iostream> using namespace std; class A { public: int i; int j; } int main() { const ...

Blacksmith Demo部分内容学习

1.Plane Reflection平面反射在第一个例子里可以看到,该脚本使用一个特定的相机渲染反射内容左边关闭该脚本,右边为开启 gif特写: 用来做产品展示倒是很不错: 2.HairRende ...

矩阵十题【六】 poj3070 Fibonacci

题目链接:http://poj.org/problem?id=3070 题目大意:给定n和10000,求第n个Fibonacci数mod 10000 的值,n不超过2^31.结果保留四位数字. 很简单 ...

linux基础-给普通用户组分配sudo权限

在root用户登录下, 输入 vim /etc/sudoers ,在root ALL=(ALL) ALL 这一行后面按着这种格式加上你要添加sudo权限的的用户组名称. eg:给用户组为 ...

windows编程之目录遍历

利用windows的API,FindFirstFile和FileNextFile,採用递归遍历指定目录中的全部文件及目录,第一次windows编程.代码写的非常臃肿难看.请大家多多包涵! #inclu ...

遍历DataTable

1 DataTable dt = ds.Table[0]; 2 if (dt != null && dt.Rows.Count > 0) 3 { 4 foreach (DataR ...

关于linux中的iconv转码

在Linux中iconv是一个用来转码的命令,在将数据文件导入到数据库中的时候经经常会遇到,数据文件的字符编码格式和数据库中要求的字符编码格式不一致,这时就会经常用到iconv这个命令 iconv ...

前端借助接口获取ip地址

<script language="javascript" src="http://www.codefans.net/ajaxjs/jquery1.3.2.js&q ...

Redis源代码分析（二十七）--- rio制I/O包裹

I/O每个操作系统,它的一个组成部分.和I/O业务质量,在一定程度上也影响了系统的效率. 今天,我在了解了Redis中间I/O的,相同的,Redis在他自己的系统中.也封装了一个I/O层.简称RIO. ...

获取表单内按钮值方法单选框值

select值获取方式 <select id="areaId" name="areaId" onchange="chooseEvent()&qu ...

ASP.NET5使用FaceBook登录

原版教程使用VS2015创建Web应用: 此教程使用的是FaceBook账号登录,需要添加相关的类,打开Nuget: 搜索Microsoft.AspNet.Authentication.Facebo ...

做一个正气的杭电人--hdu2500

做一个正气的杭电人 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total S ...

Mysql研究之SQL语言的设计与编写完全解析

一.SQL语句分类数据定义语言(DDL): 用于定义和管理数据对象,包括数据库.数据表.视图.索引等.例如:CREATE.DROP.ALTER等语句. 数据操作语言(DML):[和表中的数据记 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.