ElasticSearch中分词器组件配置详解

首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由Apache Lucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。

所以要想熟练的掌握的关于es中分词方面的知识,一定得先从Lucene抓起,否则只会是丈二和尚摸不着头脑,当然我们大多数开发者只关注于怎么用,偏底层的东东,也没有太多时间去深究,这也有情可原,遇到问题再去探究,也何尝不是一种办法,如果有时间,还是建议看看Lucene基础的知识。

在ElasticSearch或Solr中,都提供了基于配置的可插拔式的分词插件,管理方式,这样以来就组合配置方式就非常灵活,在es中,一个analysis集合 
可以包含多个analyzer,而一个analyzer则由一个单个的tokenizer,零个或多个的tokenfilter组成,而一个tokenizer又可以包含零个或多个的charFilter。总体的执行流程如下图:

在es里面的一个模板配置如下:

Java代码  

  1. index :
  2. analysis ://一个analysis可以包含多个analyzer,tokenizer,filter,char_filter配置
  3. analyzer :// 一个analyzer下面可以包含一个tokenizer,多个filter和char_filter, position_increment_gap是距离查询时,最大允许查询的距离,默认是100
  4. myAnalyzer1 :
  5. type : custom
  6. tokenizer : myTokenizer1
  7. filter : [myTokenFilter1, myTokenFilter2]
  8. char_filter : [my_html]
  9. position_increment_gap: 256
  10. myAnalyzer2 :
  11. type : custom
  12. tokenizer : myTokenizer1
  13. filter : [myTokenFilter1, myTokenFilter2]
  14. char_filter : [my_html]
  15. position_increment_gap: 256
  16. tokenizer :
  17. myTokenizer1 :
  18. type : standard
  19. max_token_length : 900
  20. myTokenizer2 :
  21. type : keyword
  22. max_token_length : 900
  23. filter :
  24. myTokenFilter1 :
  25. type : stop
  26. stopwords : [stop1, stop2, stop3, stop4]
  27. myTokenFilter2 :
  28. type : length
  29. min : 0
  30. max : 2000
  31. char_filter :
  32. my_html :
  33. type : html_strip
  34. escaped_tags : [xxx, yyy]
  35. read_ahead : 1024

一个比较完整的分词器配置案例,就如上面的例子,几乎涵盖了所有可能用到的组件,而我们在实际应用中,要做的就是,选择组合我们需要的组件,定制成一个分词器,然后就可以使用了, 
上面的这段配置,我们需要配置在elasticsearch.yml文件中,全局有效,然后我们就可以在静态mapping或动态mapping中引用和使用它了。 
参考链接: 
https://www.elastic.co/guide/en/elasticsearch/reference/2.1/analysis-custom-analyzer.html

时间: 2024-10-12 10:45:52

ElasticSearch中分词器组件配置详解的相关文章

数据层spring-dao.xml配置文件中C3P0连接池配置详解

数据层spring-dao.xml配置文件中C3P0连接池配置详解 先放上两种配置文件bean的相关代码,文章下面会有详细的配置属性的讲解,大家可以自己添加配置和修改配置普通单一数据库连接池配置: <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource"> <!-- 配置连接池属性 --> <property name="driverClas

Solr配置中文分词器IK Analyzer详解

配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败.以下是详细步骤: 1.下载IK Analyzer. 下载地址为:http://code.google.com/p/ik-analyzer/downloads/list 但是由于本国国情,需要翻墙才能下载

Linux 软件包管理器-----yum配置详解一

一.yum简介    Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器.基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载.安装.    yum 的理念是使用一个中心仓库(repository)管理一部分甚至一个distribution 的应用程序相互关系,根据计算出来的软件依赖关系进行相关的升级.安装.删

Redis中redis.conf里面配置详解

是否将redis设置为守护程序,默认为no daemonize yes 如果设置为守护程序,需要指定pid文件 pidfile /var/run/redis/redis-server.pid redis监听端口 (渗透人员对端口肯定超级敏感) port 65432 绑定监听端口 bind 127.0.0.1 (渗透人员注意,连接redis的ip限制,跳板准备好) 工作目录 dir /home/lidanqing01/redis (渗透人员注意,数据库存放地址) 数据库名字 dbfilename

Eclipse中使用javap运行配置详解

javap是sun提供的对class文件进行反编译的工具 1.配置Run---external tools---external tools configurations 选择Program 新建javap运行方式 设置location.workspace等选项 如下图: 需要注意的是workspace选择和argument配置 workding directory 设置为${workspace_loc}/${project_name} , Arguments: -c -verbose -cla

Servlet中Web.xml的配置详解

1 定义头和根元素 部署描述符文件就像所有XML文件一样,必须以一个XML头开始.这个头声明可以使用的XML版本并给出文件的字符编码. DOCYTPE声明必须立即出现在此头之后.这个声明告诉服务器适用的servlet规范的版本(如2.2或2.3)并指定管理此文件其余部分内容的语法的DTD(Document Type Definition,文档类型定义). 所有部署描述符文件的顶层(根)元素为web-app.请注意,XML元素不像HTML,他们是大小写敏感的.因此,web-App和WEB-APP都

mysql中binlog_format模式与配置详解

mysql复制主要有三种方式:基于SQL语句的复制(statement-based replication, SBR),基于行的复制(row-based replication, RBR),混合模式复制(mixed-based replication, MBR).对应的,binlog的格式也有三种:STATEMENT,ROW,MIXED. ① STATEMENT模式(SBR) 每一条会修改数据的sql语句会记录到binlog中.优点是并不需要记录每一条sql语句和每一行的数据变化,减少了binl

linux中的FTP服务配置详解

本文主要内容有:linux中安装vsftpd(也就是FTP服务). 1.使用匿名用户上传和下载文件. 2.使用身份验证的方式上传和下载文件. 3.建立虚拟用户(步骤比较多). 4.为单独的用户建立单独的上传和下载机制(花那么多时间只是为了您知道"兂"这个字). 首先是安装vsftpd服务(也就是FTP服务),安装完成之后使用rpm -qc vsftpd查看文件的安装目录,也可以使用grep命令过滤掉以#开头的注释文件并查看配置文件. 下面是关闭iptables防火墙和SElinux策略

Servlet中Web.xml的配置详解(一)

1 定义头和根元素 部署描述符文件就像所有XML文件一样,必须以一个XML头开始.这个头声明可以使用的XML版本并给出文件的字符编码.DOCYTPE声明必须立即出现在此头之后.这个声明告诉服务器适用的servlet规范的版本(如2.2或2.3)并指定管理此文件其余部分内容的语法的DTD(Document Type Definition,文档类型定义).所有部署描述符文件的顶层(根)元素为web-app.请注意,XML元素不像HTML,他们是大小写敏感的.因此,web-App和WEB-APP都是不