和我一起打造个简单搜索之IK分词以及拼音分词

elasticsearch 官方默认的分词插件，对中文分词效果不理想，它是把中文词语分成了一个一个的汉字。所以我们引入 es 插件 es-ik。同时为了提升用户体验，引入 es-pinyin 插件。本文介绍这两个 es 插件的安装。

环境

本文以及后续 es 系列文章都基于 5.5.3 这个版本的 elasticsearch ，这个版本比较稳定，可以用于生产环境。

ik 分词器和 pinyin 分词器在 github 仓库可以找到，注意版本与 elasticsearch 的版本需要对应，本文使用 5.5.3 版本

如果 elasticsearch 与我的版本不同，可以去官方 github 对应的仓库查看对应版本的 ik 以及 pinyin 分词器。

系列文章

安装 ik 分词器

前文中，我们已经安装了 elasticsearch，我们在其基础上安装分词器

cd /usr/local/es/

## 下载 ik 分词器
wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.5.3/elasticsearch-analysis-ik-5.5.3.zip

## 使用 unzip 解压
## 如果未安装，通过 yum instal unzip 进行安装
unzip elasticsearch-analysis-ik-5.5.3.zip

## 在 elasticsearch 安装目录下的 plugins 文件夹下创建 ik 目录
mkdir /usr/local/es/master/plugins/ik

## 将解压后的 ik 目录下的所有文件移动到  /usr/local/es/master/plugins/ik/
mv /usr/local/es/elasticsearch/* /usr/local/es/master/plugins/ik/

## 重启 elasticsearch 或启动 master elasticsearch
## 注意启动时，需要切换到 esuser 用户

## 启动成功后，日志里会打印此行
[2018-09-02T06:33:43,703][INFO ][o.e.p.PluginsService     ] [master] loaded plugin [analysis-ik]

验证 ik 分词器是否生效

打开 Restlet Client 或者 postman 工具

GET http://192.168.199.192:9200/_analyze?analyzer=ik_smart&text="中华人民共和国国歌"

移除名为 ik 的analyzer和tokenizer,请分别使用 ik_smart 和 ik_max_word

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

这里 analyzer 可以指定分词类型，发送请求返回结果：

{
    "tokens": [
        {
            "token": "中华人民共和国",
            "start_offset": 1,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "国歌",
            "start_offset": 8,
            "end_offset": 10,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

我这里指定的 analyzer 为 ik_smart，即粗粒度分词，可以看到 ik 分词器已经生效了。接下来继续安装 pinyin 分词器。

安装 pinyin 分词器

cd /usr/local/es/

## 下载 pinyin 分词器
wget https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v5.5.3/elasticsearch-analysis-pinyin-5.5.3.zip

## 使用 unzip 解压
## 如果未安装，通过 yum instal unzip 进行安装
unzip elasticsearch-analysis-pinyin-5.5.3.zip

## 在 elasticsearch 安装目录下的 plugins 文件夹下创建 pinyin 目录
mkdir /usr/local/es/master/plugins/pinyin

## 将解压后的 ik 目录下的所有文件移动到  /usr/local/es/master/plugins/pinyin/
mv /usr/local/es/elasticsearch/* /usr/local/es/master/plugins/pinyin/

## 重启 elasticsearch 或启动 master elasticsearch
## 注意启动时，需要切换到 esuser 用户

## 启动成功后，日志里打印
[2018-09-02T07:04:56,203][INFO ][o.e.p.PluginsService     ] [master] loaded plugin [analysis-ik]
[2018-09-02T07:04:56,203][INFO ][o.e.p.PluginsService     ] [master] loaded plugin [analysis-pinyin]

验证 pinyin 分词器是否生效

打开 Restlet Client 或者 postman 工具

GET http://192.168.199.192:9200/_analyze?analyzer=pinyin&text="李小龙"

这里 analyzer 可以指定分词为 pinyin，发送请求返回结果：

{
    "tokens": [
        {
            "token": "li",
            "start_offset": 1,
            "end_offset": 2,
            "type": "word",
            "position": 0
        },
        {
            "token": "xiao",
            "start_offset": 2,
            "end_offset": 3,
            "type": "word",
            "position": 1
        },
        {
            "token": "long",
            "start_offset": 3,
            "end_offset": 4,
            "type": "word",
            "position": 2
        },
        {
            "token": "lxl",
            "start_offset": 0,
            "end_offset": 3,
            "type": "word",
            "position": 2
        }
    ]
}

观察结果，说明 pinyin 分词器也已经生效了。

集群其他节点分词器安装

现在只对 master 进行了安装，其他 slave 也需要安装，这里可以通过拷贝的方式直接来完成安装了。

cp -r master/plugins/ slave1/

cp -r master/plugins/ slave2/

如果其他节点在不同服务器上，通过 scp 命令拷贝即可。

有疑问?

欢迎来信，给我写信

参考

https://github.com/medcl/elasticsearch-analysis-pinyin/issues/19

原文地址：https://www.cnblogs.com/vcmq/p/9966673.html

时间： 2024-11-07 04:53:46

和我一起打造个简单搜索之IK分词以及拼音分词的相关文章

和我一起打造个简单搜索之Logstash实时同步建立索引

用过 Solr 的朋友都知道,Solr 可以直接在配置文件中配置数据库连接从而完成索引的同步创建,但是 ElasticSearch 本身并不具备这样的功能,那如何建立索引呢?方法其实很多,可以使用 Java API 的方式建立索引,也可以通过 Logstash 的插件 logstash-input-jdbc 完成,今天来探讨下如何使用 logstash-input-jdbc 完成全量同步以及增量同步. 环境本文以及后续 es 系列文章都基于 5.5.3 这个版本的 elasticsearch

和我一起打造个简单搜索之ElasticSearch集群搭建

我们所常见的电商搜索如京东,搜索页面都会提供各种各样的筛选条件,比如品牌.尺寸.适用季节.价格区间等,同时提供排序,比如价格排序,信誉排序,销量排序等,方便了用户去找到自己心里理想的商品. 站内搜索对于一个网站几乎是标配,只是搜索的强大与否的区别,有的网站只支持关键词模糊搜索,而淘宝,京东提供了精细的筛选条件,同时支持拼音搜索等更方便的搜索方式. 由于笔者在一家做网络文学的公司工作,所以实现就是以小说为商品的搜索,具体可以参考起点网小说的搜索. 如图所示,起点网的搜索提供了关键词搜索和排序条件以

和我一起打造个简单搜索之SpringDataElasticSearch入门

网上大多通过 java 操作 es 使用的都是 TransportClient,而介绍使用 SpringDataElasticSearch 的文章相对比较少,笔者也是摸索了许久,接下来本文介绍 SpringDataElasticSearch 的 api 使用,更加方便的进行查询. 系列文章一.和我一起打造个简单搜索之ElasticSearch集群搭建二.和我一起打造个简单搜索之ElasticSearch入门三.和我一起打造个简单搜索之IK分词以及拼音分词四.和我一起打造个简单搜索之Log

和我一起打造个简单搜索之SpringDataElasticSearch关键词高亮

前面几篇文章详细讲解了 ElasticSearch 的搭建以及使用 SpringDataElasticSearch 来完成搜索查询,但是搜索一般都会有搜索关键字高亮的功能,今天我们把它给加上. 系列文章一.和我一起打造个简单搜索之ElasticSearch集群搭建二.和我一起打造个简单搜索之ElasticSearch入门三.和我一起打造个简单搜索之IK分词以及拼音分词四.和我一起打造个简单搜索之Logstash实时同步建立索引五.和我一起打造个简单搜索之SpringDataElasti

Elasticsearch拼音分词和IK分词的安装及使用

一.Es插件配置及下载 1.IK分词器的下载安装关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器.做ES开发的,中文分词十有八九使用的都是IK分词器. 下载地址:https://github.com/medcl/elasticsearch-analysis-ik 2.pinyin分词器的下载安装可以在淘宝.京东的搜索框中输入pinyin就能查找到自己想要的结果,这就是拼音分词,拼音分词则是将中文分析成拼音格式,可以通过拼音分词分析出来的数据进行查

参与过三次搜索引擎发展转折的百度，为什么要回归“简单搜索”

相信在搜索引擎技术产品化的二十余年间,我们早已经习惯了搜索引擎的商业化.不过在最近的数博会上,李彦宏却展示了一款名为"简单搜索"的语音交互搜索App,并且声明简单搜索永无广告. 相信很多人也曾想象过这样一款产品--通过语音发问,得出最简单的答案.不过可能大多数人没有想到,推出这款产品的是百度.很长一段时间内,百度的搜索引擎商业化一直为人诟病.但这次百度率先推出永无广告的语音交互搜索,无疑是在搜索引擎的技术和产品形式上都进行了重要创新. 当我们在质疑大企业的创新能力时常常会忽视一点,在技

专题一、简单搜索 - Virtual Judge

很久以前刷完了Virtual Judge上的简单搜索专题,现总结如下: POJ 1321 由于题目的数据范围比较小,可以直接dfs暴力.读入时记录每个空位的位置,保存在pX[]以及pY[]数组中.暴力的时候统计当前处理第几个空格以及当前处理到了第几行即可. #include <iostream> #include <memory.h> using namespace std; const int MAX = 128; long long ans; int N, K, nCnt; b

[.NET] 一步步打造一个简单的 MVC 电商网站 - BooksStore（二）

一步步打造一个简单的 MVC 电商网站 - BooksStore(二) 本系列的 GitHub地址:https://github.com/liqingwen2015/Wen.BooksStore 前:<一步步打造一个简单的 MVC 电商网站 - BooksStore(一)> 简介上一次我们尝试了:创建项目架构.创建域模型实体.创建单元测试.创建控制器与视图.创建分页和加入样式,而这一节我们会完成两个功能,分类导航与购物车. 主要功能与知识点如下: 分类.产品浏览.购物车.结算.CRUD(增删

java 模拟简单搜索

Java 模拟简单搜索实体类 package org.dennisit.entity; /** * * * @version : 1.0 * * @author : 苏若年 <a href="mailto:[email protected]">发送邮件</a> * * @since : 1.0 创建时间: 2013-4-8 下午04:51:03 * * @function: TODO * */ public class Medicine { private I