coreseek mmseg分词配置和创建

1.文件格式为

沃尔沃 1
x:1
现代 1
x:1
徐工 1
x:1
住友 1

。。。

3.将生成的符合格式要求的词表粘贴到原词表unigram.txt末尾,保存为unigram_new.txt,并拷贝到mmseg所在的目录下;

4.生成新的uni

/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram_new.txt

就会生成新的词典文件unigram_new.txt.uni

5.将新的unigram_new.txt.uni 替换原有的uni.lib
    mv /usr/local/mmseg3/etc/unigram_new.txt.uni /usr/local/mmseg3/etc/uni.lib

6.重新建立索引库、重启searchd
     /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/c.conf --all --pidfile --rotate
    关闭searchd
      ps auxww | grep searchd
      kill 923230
    启动searchd
    /usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/c.conf --console --pidfile

搜索试下就出来了。

注意:需要重启searchd

时间: 2024-08-12 11:59:06

coreseek mmseg分词配置和创建的相关文章

Elasticsearch 5 Ik+pinyin分词配置详解

一.拼音分词的应用 拼音分词在日常生活中其实很常见,也许你每天都在用.打开淘宝看一看吧,输入拼音"zhonghua",下面会有包含"zhonghua"对应的中文"中华"的商品的提示: 拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验.加快搜索速度.下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词. 二.IK分词器下载与安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分

Solr5.5.1 IK中文分词配置与使用

前言 用过Lucene.net的都知道,我们自己搭建索引服务器时和解决搜索匹配度的问题都用到过盘古分词.其中包含一个词典. 那么既然用到了这种国际化的框架,那么就避免不了中文分词.尤其是国内特殊行业比较多.比如油田系统从勘探.打井.投产等若干环节都涉及一些专业词汇. 再像电商,手机.手机配件.笔记本.笔记本配件之类.汽车,品牌.车系.车型等等,这一系列数据背后都涉及各自领域的专业名次,所以中文分词就最终的目的还是为了解决搜索结果的精确度和匹配度的问题. IK搜索预览 我的univeral Cor

在Eclipse中配置Tomcat 创建和运行Servlet/JSP

在Eclipse中配置Tomcat 创建和运行Servlet/JSP 步骤一:在Eclipse中配置Tomcat(注意下载Eclipse IDE for Java EE Developers) (1)在Eclipse中配置Tomcat.选择Window→Preferences命令,在打开的对话框左边列表框中选择Server节点中的Runtime Environments.单击窗口右侧的Add按钮,打开New Server Runtime Environmen对话框,在该对话框中可选择服务器的类型

Maven教程、安装、配置、创建Maven项目

前言 知道Maven这东西很久了,一直没有研究过,今天抽时间从Maven的下载.安装.环境变量配置.以及创建Maven项目统一讲一下,方便学习使用的童鞋参考,如有偏差,请多理解! 搜狗百科 Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具.它包含了一个项目对象模型 (Project Object Model),一组标准集合,一个项目生命周期(Project Lifecycle),一个依赖管理系统(Dependency Managemen

PHP实现关键词全文搜索Sphinx及中文分词Coreseek的安装配置

一.需求 实现文章标题中或分类(甚至文章内容)包含搜索词的文章,按照搜索词出现的频率的权重展示. 二.环境 Nginx+PHP+Mysql(系统Centos7). 三.安装 1.安装依赖 yum -y install make gcc gcc-c++ libtool autoconf automake imake mariadb mariadb-server mariadb-devel libxml2-devel expat-devel 2.下载软件包 git clone https://git

【coreseek】安装配置

安装sphinx相关服务. 参考:http://blog.csdn.net/e421083458/article/details/21529969 http://www.coreseek.cn/products-install/install_on_bsd_linux/ 安装sphinx相关服务. 参考:http://blog.csdn.net/e421083458/article/details/21529969 http://www.coreseek.cn/products-install/

添加coreseek中文分词

官方说明地址: ?http://www.coreseek.cn/opensource/mmseg/ 词典文件所在位置: 本地管理地址:xxx/dict/new_dict.txt[ 每次添加新的词,先更新此文件, 然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库] 线上词库配置地址: /export/coreseek/dict/ Step1: 生成词典文件 找出需要添加的词,存储到txt文档中,每个”词条“一行[请检查new_dict.txt中是否已经存在] php 脚本输出格式

Windows ElasticSearch中文分词配置

elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法, 当我们创建一个index(库db_news)时,easticsearch默认提供的分词器db_news,分词结果会把每个汉字分开,而不是我们想要的根据关键词来分词.例如: 代码如下: 正常情况下,这不是我们想要的结果,比如我们更希望 “我”,“爱”,“北京”,"天安门"这样

Django学习(一)---基本配置及创建项目、应用

安装:在Django官网下载最新版Django然后通过pip安装即可 一.创建项目 进入文件夹,打开cmd窗口,输入django-admin startproject myblog(项目名) 二.创建应用 1.打开命令行,进入项目中manage.py同级目录 2.命令行输入:python manage.py startapp blog(应用名) 3.添加应用名到settings.py中的INSTALLED_APPS里 三.新建视图 编辑应用blog目录下的views.py文件如下: from d