Elasticsearch中的分词器比较及使用方法

Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

https://segmentfault.com/a/1190000012553894

介绍：ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于 RESTful web 接口。Elasticsearch 是用 Java 开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

Elasticsearch中，内置了很多分词器（analyzers）。下面来进行比较下系统默认分词器和常用的中文分词器之间的区别
系统默认分词器：
1、standard 分词器
https://www.elastic.co/guide/...

如何使用：http://www.yiibai.com/lucene/...

英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分。他会将词汇单元转换成小写形式，并去除停用词和标点符号。
/**StandardAnalyzer分析器*/
public void standardAnalyzer(String msg){
StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
this.getTokens(analyzer, msg);
}

原文地址：https://www.cnblogs.com/Leo_wl/p/9083792.html

时间： 2024-10-09 04:49:51

Elasticsearch中的分词器比较及使用方法的相关文章

ElasticSearch最全分词器比较及使用方法

介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便. Elasticsearch中,内置了很多分词器(analyzers).下面来进行比较下系统默认分词器和常用的中文分词器之间的区别. 系统默认分词器:1.

Elasticsearch之中文分词器插件es-ik

前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1.elasticsearch官方默认的分词插件,对中文分词效果不理想. 比如,我现在,拿个具体实例来展现下,验证为什么,es官网提供的分词插件对中文分词而言,效果差. [[email protected] elasti

Elasticsearch之中文分词器插件es-ik的热更新词库

前提 Elasticsearch之中文分词器插件es-ik的自定义词库先声明,热更新词库,需要用到,web项目和Tomcat.不会的,请移步 Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) Tomcat *的安装和运行(绿色版和安装版都适用) Tomcat的配置文件详解 1: 部署 http 服务在这使用 tomcat7 作为 web 容器, 先下载一个 tomcat7, 然后上传到某一台服务器上(192.168.80.10).再执行以下命令 tar -zx

ElasticSearch 用ik分词器建立索引（java API）

ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,作为当前流行的企业级搜索引擎,用于云计算中,能够达到实时搜索,并且具有稳定,可靠,快速安装,使用方便等多种优点,得到大多数企业的青睐. ElasicSearch可以通过终端建立索引,但是本人在做项目的时候用终端建立的索引,然后使用Java API进行数据的插入,始终得不到分词,最终的解决办法就是通过Java API

ElasticSearch的中文分词器ik

一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用. 二.IK分词器的安装和使用 2.1.安装ik 我们可以从官方github上下载该插件,我们下载对应于我们使用的es的版本的ik,并且我们能够看到具体的安装步骤,可以有两种安装方法. 这里我们选择第一种方式: 重启es,我们就可以使用ik这个中文分词器了. 2.2.使用ik中文分词器

Elasticsearch：Pinyin 分词器

Elastic的Medcl提供了一种搜索Pinyin搜索的方法.拼音搜索在很多的应用场景中都有被用到.比如在百度搜索中,我们使用拼音就可以出现汉字: 对于我们中国人来说,拼音搜索也是非常直接的.那么在Elasticsearch中我们该如何使用pinyin来进行搜索呢?答案是我们采用Medcl所创建的elasticsearch-analysis-pinyin分析器.下面我们简单介绍一下如何进行安装和测试. 下载Pinyin分析器源码进行编译及安装由于elasticsearch-analysis-

elasticsearch 安装中文分词器

发车为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用.今天我们就尝试安装下IK分词. 上车 1.去github 下载对应的分词插件https://github.com/medcl/elasticsearch-analysis-ik/releases根据不同版本下载不同的分词插件 2.到es的plugins 目录创建文件夹cd your-es-root/plugins/

ElasticSearch、IK分词器、Head Master安装-----Windows

ElasticSearch安装运行前提条件:配置好Jdk Head-Master运行前提条件:node 一.下载地址:https://www.elastic.co/cn/downloads/elasticsearch 历史版本:找到下面这句话然后双击 Not the version you're looking for? View past releases. 二.IK分词器下载地址:https://github.com/medcl/elasticsearch-analysis-ik/re

elasticsearch安装ik分词器（极速版）

简介:下面讲有我已经打包并且编辑过的zip包,你可以在下面下载即可. 1.下载zip包.elasticsearch-analysis-ik-1.8.0.jar下面有附件链接[ik-安装包.zip],下载即可.(内有做好的elasticsearch-analysis-ik-1.8.0.jar) 2.上传zip包.下载ik.zip文件后解压缩,如下图. 修改plugin-descriptor.properties文件,将elasticsearch.version=2.2.0改成自己的elastics

猜你喜欢

Mysql数据库中 User表权限字段说明全介绍

一:mysql权限表user字段详解: Select_priv.确定用户是否可以通过SELECT命令选择数据. Insert_priv.确定用户是否可以通过INSERT命令插入数据. Update_p ...

了解dto概念,什么是DTO

了解dto概念此博文收集整理了一些主流的文章对于DTO模式的解读,他们大体相似而又各有所不同.对于设计模式的解读也是一个仁者见仁智者见智的事情,不过设计模式往往都是前辈们在遇到一类特定的问题下而总结 ...

TCP协议的三次握手和四次挥手

暂时需要的信息有: ACK : TCP协议规定,只有ACK=1时有效,也规定连接建立后所有发送的报文的ACK必须为1 SYN(SYNchronization) : 在连接建立时用来同步序号.当SYN= ...

设计模式初探（一）

序,设计模式就像修炼武功的心法口诀.虽不实用,但是却威力无穷,需要我们在代码设计,框架设计时多多品味. 一.Facade模式一句话描述:为子系统中的一组接口提供了一个统一的接口. 解释:facade ...

如何解决自定义ToolBar起始位置的空格（左对齐）问题

最近在做项目的时候,与到自定义toolbar的问题,自定义toolbar布局之类的并不是很难,但是自定义布局完成之后,控件总是无法左对齐,这极大的影响了App的美观. 结果谷歌后在Stack Over ...

POJ 3783 Balls 动态规划

题意:给定B (B <= 50) 个一样的球,从 M (M <= 1000) 层楼上一个一个往下扔,存在某个楼层K,使得低于它的楼层往下扔球,球不会碎,在第K层扔下去会碎.求最坏情况下,需 ...

基于Node.js + jade + Mongoose 模仿gokk.tv

原文摘自我的前端博客,欢迎大家来访问 http://www.hacke2.cn 关于gokk 大学的娱乐活动基本就是在寝室看电影了→_→,一般都会选择去goxiazai.cc上看,里面的资源多,质量高 ...

javascript 中caller,callee,call,apply 的概念[转载]

在提到上述的概念之前,首先想说说javascript中函数的隐含参数:arguments Arguments : 该对象代表正在执行的函数和调用它的函数的参数. [function.]argument ...

thinkphp5.0如何隐藏index.php入口文件

隐藏入口文件 public/index.php 同级的.htaccess文件 [ Apache ] 方法1: <IfModule mod_rewrite.c> Options +Follo ...

HTTP 协议 Cache-Control 头——性能啊

原文地址:http://tools.ietf.org/html/rfc2616#section-14.9 本文内容概述术语HTTP Cache-Control 头可缓存的资源可被高速 ...

流水作业批作业调度

流水作业调度的最终目标是要求完成所有任务的时间最短,所以把最后一个任务的完成时间作为标准:而批处理作业调度的目的是要让每一个作业都尽快得到处理,所以要把每个作业的完成时间之和作为标准.两者看上去相似, ...

Android中级day04_20141218

很久没写了.今天已经是安卓中级部分的第四天了.从上周一开始的安卓初级第一天就一直想写博,无奈,改了一下学习方法,所以每天晚上复习加练习都用去不少时间,结束作业都不早了,也就一直拖到现在. 上周末老师给 ...

Python之转义字符

1.字符串可以用''或者""括起来表示,如果字符串本身包含'怎么办?比如我们要表示字符串 I'm OK,这时可以用" "括起来表示: "I'm O ...

第4章第1节练习题10 判断某二叉树是否为完全二叉树

问题描述试写一算法,完成判定某二叉树是否为完全二叉树的功能算法思想根据完全二叉树的定义,具有n个节点的完全二叉树与满二叉树中的编号从1~n的节点一一对应,可以考虑使用层次遍历的思想来实现. 将所 ...

使用事件和消息队列实现分布式事务

原文:http://skaka.me/blog/2016/04/21/springcloud1/ 不同于单一架构应用(Monolith), 分布式环境下, 进行事务操作将变得困难, 因为分布式环境通常 ...

RegExp入门笔记

前言: 一开始我是拒绝学正则表达式的,暑假看慕课上的PHP进阶课程里有一章是专门讲正则,然后我思考的几秒钟,就略过了.理由和大家一样,畏惧,听很多人说正则很难,然后就果断放弃.但是昨天看到知乎上有个话 ...

年度最牛广告文案，看到最后我服了

原标题:满足女人的欲望,是我的使命我叫王金财,跟所有在这个城市打拼的年轻人一样,我没有车子.没有房子,只有一个梦想和一份工作. 而且我的工作有点特殊,不仅对体力要求特别高,而且有些富婆真的挺难伺候, ...

iOS网络传输Delegate不被触发的本质原因

NSURLSession一共有四种Delegate (文后附表有Session和SessionTask分类表格) NSURLSessionDelegate, NSURLSessionDownloadD ...

ios网络编程学习

//网络访问获取数据//定义一个UIWebView属性,用来展示数据 @property (strong, nonatomic) IBOutlet UIWebView *myWebView; //.. ...

SSH三大框架整合步骤

Struts2:需要整合的第一个框架: 1.创建一个动态web项目 2.导入struts2必须的jar 放到 lib目录下 ,再 build path 添加web工程中 3.配置struts2的核心配 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.