添加coreseek中文分词

官方说明地址： ?http://www.coreseek.cn/opensource/mmseg/

词典文件所在位置：本地管理地址：xxx/dict/new_dict.txt【每次添加新的词，先更新此文件，然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库】
线上词库配置地址： /export/coreseek/dict/

Step1: 生成词典文件找出需要添加的词，存储到txt文档中，每个”词条“一行【请检查new_dict.txt中是否已经存在】

php 脚本输出格式化的词典文件【换行加“\r”为了和原词典文件保持一致】

$file = ‘717add.txt‘;
$data = file($file);
$str = ‘‘;
foreach($data as $val) {
    $val = trim($val);
    $str .= $val. "\t" . ‘1‘ . "\r\n";
    $str .= ‘x:1‘ . "\r\n";
}
file_put_contents(‘717add_dict.txt‘, $str);

Step2: 添加到原词典文件new_dict.txt中

cat 717add_dict.txt >> new_dict.txt

Step3: 生成词典库

/usr/local/coreseek/mmseg3/bin/mmseg -u new_dict.txt

将生成一个文件 new_dict.txt.uni，将该文件改名为uni.lib，完成词典的构造

Step4: 重建索引 /export/coreseek/shell/rotate_indexer.sh product main

Step5: 检查添加结果搜索新添加的关键词，看是否被拆分

其他：
检查添加的词，哪些后面缺少了”词频“ 1
cat 717add_dict.txt | grep -v ‘x:[1-9]‘ | awk ‘{print $2"\t"$1}‘ | sort | grep -v ‘[0-9]‘
检查错行情况， x:n 是否都在偶数行
cat 717add_dict.txt | grep -n ‘x:[0-9]‘ | awk -F ‘:‘ ‘{if($1%2 == 1) {print $0}}‘

时间： 2024-10-06 14:36:25

添加coreseek中文分词的相关文章

Solr6.6.0添加IK中文分词器

IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的. jar包下载链接:http://pan.baidu.com/s/1o85I15o 密码:p82g下载好之后,将IK对应的jar复制到项目的D:\tomcat\webapps\solr\WEB-INF\lib下面,然后在WEB-INF下面创建一个classes的目录,将其余三个文件(IKAnalyzer.cfg.xml , ext.dic和stopword.dic)复制到这个cl

对本地Solr服务器添加IK中文分词器实现全文检索功能

在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name.type.indexed与stored,这篇随笔将讲述通过设置type属性的值实现中文分词的检索功能首先下载IK中文分词项目,下载地址https://code.google.com/archive/p/ik-analyzer/downloads?page=1, 其中除了含有jar包之外,还有三个相关的配置文件第一步,将IKAnalyzer2012FF_u1.jar添加到项目的WE

Solr6.5配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer (二)

之前在 Solr6.5在Centos6上的安装与配置 (一) 一文中介绍了solr6.5的安装.这篇文章主要介绍创建Solr的Core并配置中文IKAnalyzer分词和拼音检索. 一.创建Core: 1.首先在solrhome(solrhome的路径和配置见Solr6.5在Centos6上的安装与配置 (一)中solr的web.xml)中创建mycore目录; [[email protected] down]# [[email protected] down]# mkdir /down/apa

Sphinx + Coreseek 实现中文分词搜索

Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使用Google等第三方站点提供的站内全文搜索的差别 Sphinx Coreseek介绍 Coreseek安装使用 1. 全文检索 1.1 全文检索 vs. 数据库全文检索是数据库的有力补充,全文检索并不能替代数据库在应用系统中的作用.当应用系统的数据以大量的文本信息为主时,採用全文检索技术能够极大的提升应

PHP实现关键词全文搜索Sphinx及中文分词Coreseek的安装配置

一.需求实现文章标题中或分类(甚至文章内容)包含搜索词的文章,按照搜索词出现的频率的权重展示. 二.环境 Nginx+PHP+Mysql(系统Centos7). 三.安装 1.安装依赖 yum -y install make gcc gcc-c++ libtool autoconf automake imake mariadb mariadb-server mariadb-devel libxml2-devel expat-devel 2.下载软件包 git clone https://git

为Elasticsearch添加中文分词，对比分词器效果

http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器).english(英文分词)和chinese (中文分词).其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低:english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如"the"这个词)等:chinese 效果很差,后面会演示.这次主要玩这几个内容:安装中文分词

elasticsearch中文分词（mmseg）——手动添加词典

elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补. 经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对"小时代"这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果. 在咸鱼老婆的虚心指导下,我终于找到了解决办法. 手动添加该词到mmseg的词库中,有两种方法: 1.将该词加入到自带的某个词典中(非停顿词词典),如words-my.dic. 2.新建一个自定义词典,将其放入默认词库文件夹下,注意编

Centos下Sphinx中文分词编译安装测试---CoreSeek

要支持中文分词,还需要下载Coreseek,可以去官方搜索下载,这里我用的4.1 百度云下载地址: https://pan.baidu.com/s/1slNIyHf tar -zxvf coreseek-4.1-beta.tar.gz cd coreseek-4.1-beta cd mmseg-3.2.14/ ./bootstrap //测试安装环境 libtoolize: putting auxiliary files in AC_CONFIG_AUX_DIR, `config'

solr4.10.4 单机安装（并添加dataimport和中文分词器）

安装环境的准备: (这里直接给相关软件的版本号了) centos 6.4 apache-tomcat-7.0.57 solr-4.10.4 jdk1.7.0_75 jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有. 具体步骤: 1.下载solr-4.10.4,然后解压开我这里解压到 /usr/local/zip/solr-4.10.4 中(安装目录一般我都会安装在/opt/web_app安装目录自己定义创建) 2.在/opt/web_app下创建solr_server/solr

猜你喜欢

一个网站的诞生05--如何把网站做到估值过亿

网站的意义,在于创造对用户有价值的东西,估值是网站意义的一个衡量指标,提升估值的手段,也就等价于把网站做得更有用. 如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右,Whatsapp卖 ...

单片机4*4按键数码管显示0-9

#include<reg51.h> #define KEY P1 //键盘 #define SEG P0 //数码管 sbit COM=P2^0; // 数码管com sbit OC = ...

利用AdaBoost元算法提高分类性能

当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见.机器学习处理问题时又何尝不是如此?这就是元算法背后的思路.元算法是对其他算法进行组合的一种方式. 自举汇聚法(bootstrap aggr ...

jQuery UI API - .disableSelection()

定义和用法禁用选择匹配的元素集合内的文本内容注意 1.9版本废弃,不建议使用

62. Unique Paths

题目: A robot is located at the top-left corner of a m x ngrid (marked 'Start' in the diagram below). ...

美国驻上海总领馆遭轿车冲撞那些逃往使馆的人

北京时间12日消息,据国外媒体报道,美国航空航天局(NASA)的一项新研究发现,过去数十年来南极海冰的增加并不足以抵消加速减少的北极海冰.整合两极的数据可以看到,全球海冰面积正以平均每年约35000平 ...

VS2008 C++ 项目怎样添加“依赖”、“库目录”和“包含目录”

随笔 - 79, 文章 - 0, 评论 - 7, 引用 - 0 1. 添加编译所需要(依赖)的 lib 文件 [解决方案资源管理器]“项目->属性->配置属性->连接器->输入 ...

如何调教java字节码

本文地址:http://www.cnblogs.com/herbix/p/3541093.html java字节码是直接在在jvm上运行的代码.和简单易懂的java程序不同,java字节码是类似于汇编 ...

smb 挂载

====挂在测试机===注:需要先链接VPN 1.登录服务器切换至root 2.useradd 用户名2.smbpasswd -a 用户名 ****然后输入两遍密码****3.vim /etc/s ...

Ubuntu14.04中添加中文环境

1.点击桌面右上角的齿轮,打开系统设置 2.打开Language Support 3.点击Install/Remove Languages 4.在弹出的窗口中选中Chinese Simplified, ...

JBOSS系列 -EJB远程调用-客户端的配置

EJB访问方式分为远程客户端访问.本地客户端访问和WebService客户端. 所谓的EJB的远程调用是说客户端与服务端的EJB对象不在同一个JVM进程中. 本地客户端是说客户端与服务端的EJB对象在 ...

转:自定义UITableViewCell：Cell高度、分割线、间距等

UITableView的强大更多程度上来自于可以任意自定义UITableViewCell单元格. 通常,UITableView中的Cell是动态的,在使用过程中,会创建一个Cell池,根据每个cel ...

B计划第三周（开学前一周）

有事一周的开始,上周确实懈怠了不少.这周继续--(这周的400道题解报告,每道题目名字都会嵌入一个超链接) 1.reverse and compare. 字符串分析题.当a[i] = a[j], i ...

台湾军方再爆染毒q

张清敏一行深入村组,去到农普员家中,实地指导表格规范填写,并对PDA录入进行操作演练. 继腐漫画手小川攻子和热播腐剧<一年生>CP主演Krist&Singto之后,耽美剧<识 ...

基准化的软件绩效和成本度量

随着信息技术的持续革新和宏观政策引导,信息化已成为提升管理水平.提高生产效率和业务能力的重要手段,特别是"互联网+"."智能制造"等一系列国家战略发布以来,越来 ...

Android初级教程图片信息

对图片常规信息要了解其性质.图片大小.像素.位图等等概念总结如下: 图片在计算机中的大小图片的总大小 = 图片的总像素 * 每个像素占用的大小(图片的总像素=像素尺寸也就是分辨率,例如设定800*4 ...

在Linux中怎样配置辅DNS

[[email protected] ~]# vim /etc/resolv.conf ; generated by /sbin/dhclient-scriptsearch lannameserver ...

omap_hwmod: rtc: doesn‘t have mpu register target

[ 0.069442] WARNING: CPU: 0 PID: 1 at arch/arm/mach-omap2/omap_hwmod.c:2574 _init+0x4c8/0x520()[ ...

30 windows_30_ProcInfo 进程信息

windows_30_ProcInfo // windows_30_ProcInfo.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #in ...

Cisco PIX防火墙灌IOS

事件背景: 上周二出差,拿着在公司测试好的防火墙在客户机架上加点居然水土不服启动不起来,不断重启截图如下: 试过各种方法均FALSE,在百度上寻找解决办法,居然有人让送修.万般无奈之下决定重新灌一个新 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.