Es 自定义分词

index :

analysis :

analyzer :

descAnalyzer :

tokenizer : [standard,lang,letter,whitespace,uax_url_email]

filter : [porterStem,standard,lowercase,stop words,word_delimiter,synonyms]

char_filte : [html_strip]

时间： 2024-10-12 09:39:32

Es 自定义分词的相关文章

配置ES IK分词器自定义字典

1.编辑IKAnalyzer.cfg.xml文件 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在

初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么明明有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(term)了? 3.我自定义分词规则,但感觉好麻烦呢,无从下手 1.从一个实例出发,如下创建一个文档: 然后我们做一个查询,我们试图通过搜索 eat 这个关键词来搜索这个文档 ES的返回结果为0.这不太对啊,我们用最基本的字符串查找也应该能匹配到上面新建的文档才对啊! 先来看看什么是分词. 2. 分词搜

IK自定义分词字典无效

早上在家试了半个多小时,配置什么的都没错啊,可就是没有效果,好生郁闷,今天上午在公司看文档时看到,原来是 1.自定义词典为什么没有生效? 请确保你的扩展词典的文本格式为UTF8编码 IK自定义分词字典无效

利用IK分词器，自定义分词规则

IK分词源码下载地址:https://code.google.com/p/ik-analyzer/downloads/list lucene源码下载地址:http://www.eu.apache.org/dist/lucene/java/ 下载IK分词源码后,运行出现错误提示: Analyzer cannot be resolved to a type TokenStream cannot be resolved to a type OffsetAttribute cannot be resol

ElasticSearch笔记整理（三）：Java API使用与ES中文分词

[TOC] pom.xml 使用maven工程构建ES Java API的测试项目,其用到的依赖如下: <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> <version>2.3.0</version> </dependency> <dependency> <grou

lucene自定义分词器

工作上,有需要对纯数字的字符串做分词,好像CJK二元分词器对这样的数字不会做分词,所以自己写了个分词器,分词器达到以下效果:对字符串1234567,分词后为:12 34 56 7 Analyzer: package org.apache.lucene.analysis.core; import java.io.Reader; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.ap

mmseg自定义分词词库

下面给大家介绍一下如何打造自己的coreseek分词词库. coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果.要想搜索结果准确打造一个专门的分词词库必不可少. i. 首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库 ii. 因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件.网上找一个搜狗转 google的小工具,用它把你下载的全部词库转成文本文件.合并为一个文件命名为words.txt.文件要用utf8编码保存

Lucene实现自定义分词器(同义词查询与高亮)

今天我们实现一个简单的分词器,仅仅做演示使用功能如下: 1.分词按照空格.横杠.点号进行拆分: 2.实现hi与hello的同义词查询功能: 3.实现hi与hello同义词的高亮显示: MyAnalyzer实现代码: public class MyAnalyzer extends Analyzer { private int analyzerType; public MyAnalyzer(int type) { super(); analyzerType = type; } @Override p

solr自定义分词

工作上,有需要对纯数字的字符串做分词,好像CJK二元分词器对这样的数字不会做分词,所以自己写了个分词器,分词器达到以下效果:对字符串"哈哈1234呵呵456",分词后为:1 12 123 1234 4 45 456 Analyzer: package org.apache.lucene.analysis.core; import java.io.Reader; import java.io.StringReader; import org.apache.lucene.analysis.