Elasticsearch之IKAnalyzer的过滤停止词

  它在哪里呢?

  非常重要!

[[email protected] custom]$ pwd
/home/hadoop/app/elasticsearch-2.4.3/plugins/ik/config/custom
[[email protected] custom]$ ll
total 5252
-rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34 ext_stopword.dic
-rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic
-rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic
-rw-r--r--. 1 hadoop hadoop 5225922 Dec 14 10:34 sougou.dic
[[email protected] custom]$

[[email protected] elasticsearch-2.4.3]$ ll
total 56
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 bin
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 18:46 config
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 06:05 data
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 lib
-rw-rw-r--. 1 hadoop hadoop 11358 Aug 24 2016 LICENSE.txt
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 25 05:15 logs
drwxrwxr-x. 5 hadoop hadoop 4096 Dec 8 00:41 modules
-rw-rw-r--. 1 hadoop hadoop 150 Aug 24 2016 NOTICE.txt
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 25 06:31 plugins
-rw-rw-r--. 1 hadoop hadoop 8700 Aug 24 2016 README.textile
[[email protected] elasticsearch-2.4.3]$ cd plugins/
[[email protected] plugins]$ ll
total 12
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 22 05:28 head
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 25 06:32 ik
drwxrwxr-x. 8 hadoop hadoop 4096 Feb 22 05:34 kopf
[[email protected] plugins]$ cd ik/
[[email protected] ik]$ ll
total 5828
-rw-r--r--. 1 hadoop hadoop 263965 Dec 1 2015 commons-codec-1.9.jar
-rw-r--r--. 1 hadoop hadoop 61829 Dec 1 2015 commons-logging-1.2.jar
drwxr-xr-x. 3 hadoop hadoop 4096 Jan 1 12:46 config
-rw-r--r--. 1 hadoop hadoop 55998 Jan 1 13:27 elasticsearch-analysis-ik-1.10.3.jar
-rw-r--r--. 1 hadoop hadoop 4505518 Jan 15 08:59 elasticsearch-analysis-ik-1.10.3.zip
-rw-r--r--. 1 hadoop hadoop 736658 Jan 1 13:26 httpclient-4.5.2.jar
-rw-r--r--. 1 hadoop hadoop 326724 Jan 1 13:07 httpcore-4.4.4.jar
-rw-r--r--. 1 hadoop hadoop 2667 Jan 1 13:27 plugin-descriptor.properties
[[email protected] ik]$ cd config/
[[email protected] config]$ ll

total 3016
drwxr-xr-x. 2 hadoop hadoop 4096 Jan 1 12:46 custom
-rw-r--r--. 1 hadoop hadoop 697 Dec 14 10:34 IKAnalyzer.cfg.xml
-rw-r--r--. 1 hadoop hadoop 3058510 Dec 14 10:34 main.dic
-rw-r--r--. 1 hadoop hadoop 123 Dec 14 10:34 preposition.dic
-rw-r--r--. 1 hadoop hadoop 1824 Dec 14 10:34 quantifier.dic
-rw-r--r--. 1 hadoop hadoop 164 Dec 14 10:34 stopword.dic
-rw-r--r--. 1 hadoop hadoop 192 Dec 14 10:34 suffix.dic
-rw-r--r--. 1 hadoop hadoop 752 Dec 14 10:34 surname.dic
[[email protected] config]$ cd custom/
[[email protected] custom]$ ll
total 5252
-rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34 ext_stopword.dic
-rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic
-rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic
-rw-r--r--. 1 hadoop hadoop 5225922 Dec 14 10:34 sougou.dic

[[email protected] custom]$ cat ext_stopword.dic





使
























但[[email protected] custom]$

时间: 2024-10-25 15:50:29

Elasticsearch之IKAnalyzer的过滤停止词的相关文章

elasticsearch ik分词插件的扩展字典和扩展停止词字典用法

本文引自 https://blog.csdn.net/caideb/article/details/81632154 cnblog的排版好看很多,所以在这里建一篇分享博客. ----------------------------------------------------------------------------------------------- 扩展字典中的词会被筛选出来,扩展停止词中的词会被过滤掉 1.没有加入扩展字典 停止词字典用法 1) ik分词器 [[email pro

过滤敏感词方式

一.利用正则表达式 关键正则表达式 .*(关键词1|关键词2|关键词3).* 模拟业务代码 @WebServlet(name = "PatternControl", urlPatterns = {"/p"}) public class PatternControl extends HttpServlet { private static final Pattern pattern = initPattern(); private static Pattern ini

DFA算法过滤敏感词整理

这里有部分是从网上找的,但看起来太乱了,分的太散了.研究了几天,整理出来,有问题的话还请大虾们提出来.... package org.rui.util; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.HashMap; i

29_全文索引与停止词

关于全文索引的用法 macth (全文索引名) against ("要查找的单词"); 关于全文索引的停止词 全文索引不针对非常频繁的词做索引, 如this,you,my等 全文索引:在mysql的默认情况下,对于中文意义不大 因为英文有空格,标点符号来拆成单词,进而对单词进行索引, 而对于中文,没有空格来隔开单词,mysql无法识别每个中文词. create table artical( id int primary key auto_increment, title varchar

InnoDB全文索引停止词(stopwords)设计的缺陷

全文索引FULLTEXT首次运用在了InnoDB引擎上,最近在研究过程中发现停止词(stopwords)设计的缺陷. 何为停止词?就是指不想用户在搜索的时候能搜到'李洪志大师'.'法轮大法'等词汇,需要事先定义好停止词,这样就不会被搜索到.但设计的缺陷是,你必须事先就定义好,假如日后还想再定义停止词'活摘器官',必须重建一次全文索引,如果表很大的话,相当耗费时间. 下面我们看例子,截图如下: 结论:官方MySQL5.6.16和MariaDB10.0.10均有此缺陷,希望在后面的版本里,可以做调整

汉字转拼音 敏感词过滤 禁用词查找 提高程序效率另外一种思路:反向思维

汉字转拼音 敏感词过滤 禁用词查找 这些很常用的互联网需求 大家出道时是怎么做的? 大家偷懒时是怎么做的? 常规算法 - 从数据库到用户提交内容去匹配: 把数据库中所有数据压到大数组中(这时数据越多,与数据库连接时间越长) 根据用户提交的内容对大数组进行foreach(这时数据越多,占有服务器内存越大) 根据上述结果,进行相应的返回.处理(这时数据越多,与数据库连接时间越长) 优点: 逻辑简单,实施方便,开发成本低,人算素质要求低 缺点: 程序效率低,数据库压力大,速度慢 有bug,比如数据库中

IK分词器 整合solr4.7 含同义词、切分词、停止词

IK分词器如果配置成 <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" is

[转]Filter实现处理中文乱码,转义html标签,过滤敏感词

原文地址:http://www.cnblogs.com/xdp-gacl/p/3952405.html 在filter中可以得到代表用户请求和响应的request.response对象,因此在编程中可以使用Decorator(装饰器)模式对request.response对象进行包装,再把包装对象传给目标资源,从而实现一些特殊需求. 一.Decorator设计模式 1.1.Decorator设计模式介绍 当某个对象的方法不适应业务需求时,通常有2种方式可以对方法进行增强: 编写子类,覆盖需增强的

分布式搜索引擎Elasticsearch的查询与过滤

一.写入 先来一个简单的官方例子,插入的参数为 -XPUT ,插入一条记录. curl -XPUT'http://localhost:9200/test/users/1' -d'{ "user": "test", "post_date": "2009-11-15T14:12:12", "message": "Elastic Search" }' { "_index":