solr-5.4.1 和 mmseg4j-2.3.0版本的配置

配置solr服务器

1.登录solr的官方网站下载最新版本,目前是5.5.0。http://lucene.apache.org/solr/downloads.html

2.linux下载tgz类型,windows系统下载solr-5.5.0.zip

3.解压之后打开文件夹,在此目录下打开cmd命令窗口   bin\solr start  默认是8983端口,使用jetty 此时,打开浏览器访问 http://localhost:8983/solr 就可以看到solr服务器已经启动成功

4.配置核心索引core 在cmd窗口 bin/solr create -c good ,“good”为要创建的core的名字,此时solr服务器的索引core建立完毕

5.为该core:good添加索引,java使用solrj为该core添加索引  具体实现可以参照/trade/src/main/java/com/echin/query/SolrWeb.java 至此,solr服务器基本配置完毕。

为solr配置中文分词器

solr服务器默认是不开启中文分词的,这时需要配置中文分词器,目前比较流行的IKAnalyzer分词器、mmseg4j分词器、还有solr自带的分词器solr.SmartChineseSentenceTokenizerFactory

本项目配置的solr-5.4.1 和 mmseg4j-2.3.0版本,下面介绍如何配置mmseg4j-2.3.0到solr-5.4.1上

1.首先需要登录mmseg4j的官方网站 https://github.com/chenlb/mmseg4j-solr 下载最新版本 2.3.0

2.下载完毕之后,把解压的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放到solr服务器所在的\solr-5.4.1\server\solr-webapp\webapp\WEB-INF\lib文件夹下

3.吧下面一段话复制到 你的配置文件managed-schema中

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/dic"/>

</analyzer>

</fieldtype>

<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />

</analyzer>

</fieldtype>

<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="G:\ymy\solr\solr-5.4.1\server\solr\good\dic" />

</analyzer>

</fieldtype>

4.现在mmseg4j配置成功后,加入你有一个字段需要使用这种分词模式,在加上下面一句话

<field name="title" type="textComplex" multiValued="false" indexed="true" stored="true"/>

为中文分词器添加扩展词库

dicPath 参数 - 设置自定义的扩展词库,支持相对路径(相对于 solr_home).如果对路径不是很熟悉建议写绝对路径

mode 参数 - 分词模式。

至此mmseg4j中文分词器配置完毕

solr服务器配置完毕,mmseg4j也配置到服务器中,剩下的关键一步是如何让solr根据我们自己需要的关键字进行搜索,比如“爱他美”、“喜宝”、“花裤衩”等

1、首先找到mmseg4j-core-1.10.0.jar,把jar包下的data文件夹下的那个三个文件,chars.dic,units.dic,words.dic

2.把这三个文件拷到G:\ymy\solr\solr-5.4.1\server\solr\good\dic下

3.把你想要作为关键字的词语,如“爱他美”等添加到words.dic中,一个词语一行,添加下一个,敲回车

时间: 2024-09-20 00:25:34

solr-5.4.1 和 mmseg4j-2.3.0版本的配置的相关文章

solr的搭建与配置

搭建 1.下载solr压缩包solr-7.2.1.tgz. 2.解压solr-7.2.1.tgz包. 3.复制solr-7.2.1/server/solr-webapp目录下的webapp文件夹重命名为solr,并复制到jetty/webapps目录下. 4.server/lib/metrics* 开头的5个jar复制到  /usr/local/jetty/webapps/solr/WEB-INF/lib/下. 5.server/lib/ext/下的所有jar复制到  /usr/local/je

solr4.3 solrconfig.xml配置文件

<?xml version="1.0" encoding="UTF-8" ?> <config>    <!--表示solr底层使用的是lucene版本-->   <luceneMatchVersion>LUCENE_43</luceneMatchVersion>      <!-- 表示solr引用包的位置,当dir对应的目录不存在时候,会忽略此属性-->   <lib dir=&quo

solr6.6初探之配置篇

一.solr的简介 1) solr是企业级应用的全文检索项目,它是基于Apache Lucence搜索引擎开发出来的用于搜索的应用工程 2) solr最新版本6.6 下载地址:下载地址 二 启动与配置solr 1) 下载并解压文件后会得到以下界面: 我们重点关注以下几个文件夹: 1.bin 放置solr的相关执行脚本,在solr5.0版本以前,部署过程相当麻烦,好在Apache帮我们简化了相关solr的配置 2.example :这个文件夹里放置的一些solr应用实例.对于我们当然可以在实际的应

solrconfig.xml解析

solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置.下面将对solrconfig进行详细描述:1 <luceneMatchVersion>4.8</luceneMatchVersion> 表示solr底层使用的是lucene4.82 <lib dir="../../../contrib/extraction/lib" regex=".*\.jar" /> 表

solrconfig.xml和schema.xml说明

1.   solrconfig.xml solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置. 1.1.  datadir节点  <dataDir>${solr.data.dir:d:/Server/Solr/data}</dataDir>  定义了索引数据和日志文件的存放位置 1.2.  luceneMatchVersion <luceneMatchVersion>4.10.1</lucen

solrconfig.xml配置详解

solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置. 可以在tomcat的安装路径下找到这个文件C:\Program Files\Apache Software Foundation\Tomcat 8.0\solr\collection1\conf 1.datadir节点 1.<dataDir>${solr.data.dir:d:/Server/Solr/data}</dataDir>定义了索引数据和日志文件

指尖上的电商---(6)solrconfig.xml配置详解

solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置. 可以在tomcat的安装路径下找到这个文件C:\Program Files\Apache Software Foundation\Tomcat 8.0\solr\collection1\conf 1.datadir节点 1.<dataDir>${solr.data.dir:d:/Server/Solr/data}</dataDir>定义了索引数据和日志文件

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引 配置笔记

1.如何将solr部署,请参考之前的文章 2.按上述配置好后,在solr_home文件夹中,将包含collection1文件夹,这就是solr的一个实例.下面我们来看看collection1中的文件内容. collection1中包含conf和data两个子文件夹.data中包含tlog和index(如果没有也没关系,稍后再solr建立索引时,将会被创建).tlog是记录日志的文件夹,index是存放索引的文件夹.conf中包含lang文件夹和若干文件.lang文件夹中包含的是词库文件,但是so

Solr配置中文分词器mmseg4j详解

针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用.我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置. 1.首先下载对应的jar包. 版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好像需要翻墙,所以大家可以到我的上传资源下载:http://download.csdn.net/downl

Solr 5.3.0集成mmseg4j、tomcat部署、Solrj 5.3.0使用

环境:Jdk 1.7    Solr 5.3.0    Tomcat 7    mmseg4j-solr-2.3.0 1.Solr环境搭建 1.解压solr 5.3.0 2.新建solr_home,将解压文件中的 server/solr 文件夹的复制到solr_home 3.配置solr_home.在solr_home/solr中新建应用 mysolr 4.将solr_home/solr/configsets/sample_techproducts_configs中的conf文件夹复制到myso