Solr系列二:Solr与mmseg4j的整合

mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下:

第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585

第二步:将下载的mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-2.2.0.jar这三个jar包复制到tomcat下的webapps/solr/WEB-INF/lib目录下。

第三步:修改配置文件,打开solr home目录中的某一个core的目录,例如core0:然后打开core0/conf下的schema.xml文件。

第四步:在filedtype域插入如下代码:

    <fieldType name="textComplex" class="solr.TextField" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic/"/>
        </analyzer>
    </fieldType>
    <fieldType name="textMaxWord" class="solr.TextField" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic/"/>
        </analyzer>
    </fieldType>
    <fieldType name="textSimple" class="solr.TextField" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic/"/>
        </analyzer>
    </fieldType>  

4. 将mmseg4j-all-1.8.4-with-dic.war解压在一个临时文件夹中,然后将data文件夹内的chars.dic、units.dic、words.dic三个字典文件复制到TOMCAT_HOME/solr_home/core0/dic目录中;

5. 启动tomcat,访问http://localhost:8080/solr/admin/analysis.jsp,选择Field下拉选项中的type,后面输入textComplex,然后在Field value中随便复制一段中文文字,点击Analyz,就可以看到mmseg4j的分词结果了。

时间: 2024-10-09 14:45:04

Solr系列二:Solr与mmseg4j的整合的相关文章

solr与.net系列课程(二)solr的配置文件及其含义

 solr与.net系列课程(二)solr的配置文件及其含义  本节内容还是不会涉及到.net与数据库的内容,但是不要着急,这都是学时solr必学要掌握的东西,solr可不是像其他的dll文件一样,只需要引用就能调出方法与数据的,你不配置好是无法使用,前两节主要是起铺垫作用的,看起来会很枯燥无味的. 本章节内容是为下一节连接数据库做准备的,单拿出来看的话,会让人很迷糊,没关系,就当提前预习了,知道有这么个东西就行了,等下一节结合数据库后就好理解了 上一节我们已经完成了solr的基本配置,这里我们

[摘]全文检索引擎Solr系列—–全文检索基本原理

原文链接--http://www.importnew.com/12707.html 全文检索引擎Solr系列-–全文检索基本原理 2014/08/18 | 分类: 基础技术, 教程 | 2 条评论 | 标签: solr 分享到: 64 本文作者: ImportNew - 刘志军 未经许可,禁止转载! 场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到"坑爹"所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到"坑爹&quo

ztree使用系列二(整合ztree的一些功能和demo演示)

ztree官网上有详细的API和演示demo,这里就不详细介绍了,只对用到的一些功能进行说明一下. 1.用到的几个js文件 jquery-1.4.4.min.js(jQuery的核心js) jquery.ztree.core-3.5.js(ztree的核心js) jquery.ztree.excheck-3.5.js(ztree的复选框功能js) jquery.ztree.exedit-3.5.js(ztree的编辑功能js) 2.用的css文件 zTreeStyle.css(只有这一个css文

(二) solr 索引数据导入:xml格式

xml 是最常用的数据索引格式,不仅可以索引数据,还可以对文档与字段进行增强,从而改变它们的重要程度. 下面就是具体的实现方式: schema.xml的字段配置部分如下: <field name="id" type="string" stored="true" indexed="true"/> <field name="name" type="string" store

[CXF REST标准实战系列] 二、Spring4.0 整合 CXF3.0,实现测试接口(转)

转自:[CXF REST标准实战系列] 二.Spring4.0 整合 CXF3.0,实现测试接口 文章Points: 1.介绍RESTful架构风格 2.Spring配置CXF 3.三层初设计,实现WebService接口层 4.撰写HTTPClient 客户端,并实现简单调用 介绍RESTful架构风格 REST是REST之父Roy Thomas创造的,当时提出来了REST的6个特点:客户端-服务器的.无状态的.可缓存的.统一接口.分层系统和按需编码.其具有跨语言和跨平台的优势. REST是一

全文检索引擎Solr系列——Solr核心概念、配置文件

Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值.字段在被索引的同时可以存储在索引中,搜索时就能返回该字段的值,通常文档都应该包含一个能唯一表示该文档的id字段.例如: 1 2 3 4 5 6 7 8 <doc>     <field name="id">company123</field>     &

.Net程序员 Solr-5.3之旅 (二)Solr 安装

阅读目录 引言 Solr5.3环境搭建 Solr5.3创建第一个Core 结尾 引言 一个糟糕的设计有好的表现形式,它会被判死缓,一个好的设计有糟糕的表现形式,它会被判死刑立即执行. 以上摘自一个设计师的话,于原句可能有些出入,但是精髓都是一样.每个人有都有的自己的理解,我的理解是--了解你的客户的需求,了解他们需要什么,用任何技术手段达到它. 回到顶部 Solr5.3环境搭建 废话不多说,今天直接进入我们的主题,前面介绍了Solr的前世今生,今天我们就开始正式来玩一玩. 1.下载Solr5.3

solr入门之solr安全控制的研究和实践(二)

Permission Attributes(权限属性) 每个用户又一个或者几个权限组成,每个权限由几个定义过可以做哪些事的属性组成. 下面有一些不能被修改的预定义权限: Pre-defined Permissions 有一些预定义的权限.这些固定的默认值,不能修改,无法添加新属性.要使用这些属性,只需定义一个角色,包括这个权限, 然后给一个用户分配角色. security-edit: 该许可允许编辑安全配置,这意味着任何更新的操作修改security.json 通过api将被允许. securi

EDIUS视频后期制作系列视频教程【EDIUS6/7/Premiere整合】

EDIUS非线性编辑软件专为广播和后期制作环境而设计,特别针对新闻记者.无带化视频制播和存储.EDIUS拥有完善的基于文件工作流程,提供了实时.多轨道.多格式混编.合成.色键.字幕和时间线输出功能.除了标准的EDIUS系列格式,还支持 Infinity? JPEG 2000.DVCPRO.P2.VariCam.Ikegami GigaFlash.MXF .XDCAM和XDCAM EX视频素材.同时支持所有DV.HDV摄像机和录像机. 课程目录: Edius6零基础自学 精品视频教程 课时1 00