[Elasticsearch] 邻近匹配 (一) - 短语匹配以及slop参数

本文翻译自Elasticsearch官方指南的Proximity Matching一章。

邻近匹配(Proximity Matching)

使用了TF/IDF的标准全文搜索将文档，或者至少文档中的每个字段，视作"一大袋的单词"(Big bag of Words)。match查询能够告诉我们这个袋子中是否包含了我们的搜索词条，但是这只是一个方面。它不能告诉我们关于单词间关系的任何信息。

考虑以下这些句子的区别：

Sue ate the alligator.
The alligator ate Sue.
Sue never goes anywhere without her alligator-skin purse.

一个使用了sue alligator的match查询会匹配以上所有文档，但是它无法告诉我们这两个词是否表达了部分原文的部分意义，或者是表达了完整的意义。

理解单词间的联系是一个复杂的问题，我们也无法仅仅依靠另一类查询就解决这个问题，但是我们至少可以通过单词间的距离来判断单词间可能的关系。

真实的文档也许比上面几个例子要长的多：Sue和alligator也许相隔了几个段落。也许我们仍然希望包含这样的文档，但是我们会给那些Sue和alligator出现的较近的文档更高的相关度分值。

这就是短语匹配(Phrase Matching)，或者邻近度匹配(Proximity Matching)。

TIP

本章中，我们仍然会使用match查询中使用的示例文档。

短语匹配(Phrase Matching)

就像一提到全文搜索会首先想到match查询一样，当你需要寻找邻近的几个单词时，你会使用match_phrase查询：

和match查询类似，match_phrase查询首先解析查询字符串来产生一个词条列表。然后会搜索所有的词条，但只保留含有了所有搜索词条的文档，并且词条的位置要邻接。一个针对短语quick
 fox的查询不会匹配我们的任何文档，因为没有文档含有邻接在一起的quick和box词条。

TIP

match_phrase查询也可以写成类型为phrase的match查询：
词条位置
当一个字符串被解析时，解析器不仅只返回一个词条列表，它同时也返回每个词条的位置，或者顺序信息：
会返回以下的结果：
",
         "position": 1
      },
      {
         "token": "brown",
         "start_offset": 6,
         "end_offset": 11,
         "type": "<ALPHANUM>",
         "position": 2
      },
      {
         "token": "fox",
         "start_offset": 12,
         "end_offset": 15,
         "type": "<ALPHANUM>",
         "position": 3
      }
   ]
}
位置信息可以被保存在倒排索引(Inverted Index)中，像match_phrase这样位置感知(Position-aware)的查询能够使用位置信息来匹配那些含有正确单词出现顺序的文档，在这些单词间没有插入别的单词。

短语是什么

对于匹配了短语"quick brown fox"的文档，下面的条件必须为true：

quick，brown和fox必须全部出现在某个字段中。

brown的位置必须比quick的位置大1。

fox的位置必须比quick的位置大2。

如果以上的任何条件没有被满足，那么文档就不能被匹配。

TIP

在内部，match_phrase查询使用了低级的span查询族(Query Family)来执行位置感知的查询。span查询是词条级别的查询，因此它们没有解析阶段(Analysis Phase)；它们直接搜索精确的词条。

幸运的是，大多数用户几乎不需要直接使用span查询，因为match_phrase查询通常已经够好了。但是，对于某些特别的字段，比如专利搜索(Patent Search)，会使用这些低级查询来执行拥有非常特别构造的位置搜索。
混合起来(Mixing it up)

精确短语(Exact-phrase)匹配也许太过于严格了。也许我们希望含有"quick brown fox"的文档也能够匹配"quick fox"查询，即使位置并不是完全相等的。

我们可以在短语匹配使用slop参数来引入一些灵活性：
slop参数告诉match_phrase查询词条能够相隔多远时仍然将文档视为匹配。相隔多远的意思是，你需要移动一个词条多少次来让查询和文档匹配？
我们以一个简单的例子来阐述这个概念。为了让查询quick fox能够匹配含有quick brown fox的文档，我们需要slop的值为1：
            Pos 1         Pos 2         Pos 3
-----------------------------------------------
Doc:        quick         brown         fox
-----------------------------------------------
Query:      quick         fox
Slop 1:     quick                 ?     fox
尽管在使用了slop的短语匹配中，所有的单词都需要出现，但是单词的出现顺序可以不同。如果slop的值足够大，那么单词的顺序可以是任意的。

为了让fox quick查询能够匹配我们的文档，需要slop的值为3：
            Pos 1         Pos 2         Pos 3
-----------------------------------------------
Doc:        quick         brown         fox
-----------------------------------------------
Query:      fox           quick
Slop 1:     fox|quick  ?
Slop 2:     quick      ?  fox
Slop 3:     quick                 ?     fox

时间： 2024-11-05 02:33:25

[Elasticsearch] 邻近匹配 (一) - 短语匹配以及slop参数的相关文章

[Elasticsearch] 邻近匹配 (一) - 短语匹配以及slop參数

本文翻译自Elasticsearch官方指南的Proximity Matching一章. 邻近匹配(Proximity Matching) 使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每一个字段,视作"一大袋的单词"(Big bag of Words).match查询可以告诉我们这个袋子中是否包括了我们的搜索词条,可是这仅仅是一个方面.它不能告诉我们关于单词间关系的不论什么信息. 考虑下面这些句子的差别: Sue ate the alligator. The alligat

百度竞价中的精确匹配，短语匹配，广泛匹配有什么区别。

这里我们举例说明假设我们设置了一个关键词 “福特福克斯改造” 1.精确匹配: 福特福克斯改造(与关键词字面完全相同的搜索词)2.短语匹配: 精确包含--福特福克斯改造.北京福特福克斯改造(精确匹配+完全包含关键字) 同义包含--福特福克斯改造.北京福特福克斯改造.福特白色福克斯改造.改造福特福克斯.福特福克斯改装 (精确包含+关键字的插入.颠倒和同义形态) 核心包含--福特福克斯改造.北京福特福克斯改造.福特白色福克斯改造.改造福特福克斯.福特福克斯改装福克斯改造.白色经典福克斯改造.白色福

Elasticsearch - 短语匹配(match_phrase)以及slop参数

短语匹配(Phrase Matching) 就像用于全文搜索的的match查询一样,当你希望寻找邻近的单词时,match_phrase查询可以帮你达到目的. GET /my_index/my_type/_search { "query": { "match_phrase": { "title": "quick brown fox" } } } 和match查询类似,match_phrase查询首先解析查询字符串来产生一个词条列

[Elasticsearch] 邻近匹配 (三) - 性能，关联单词查询以及Shingles

提高性能短语和邻近度查询比简单的match查询在性能上更昂贵.match查询只是查看词条是否存在于倒排索引(Inverted Index)中,而match_phrase查询则需要计算和比较多个可能重复词条(Multiple possibly repeated)的位置. 在Lucene Nightly Benchmarks中,显示了一个简单的term查询比一个短语查询快大概10倍,比一个邻近度查询(一个拥有slop的短语查询)快大概20倍.当然,这个代价是在搜索期间而不是索引期间付出的. TIP

[Elasticsearch] 邻近匹配 (二) - 多值字段，邻近程度与相关度

多值字段(Multivalue Fields) 在多值字段上使用短语匹配会产生古怪的行为: PUT /my_index/groups/1 { "names": [ "John Abraham", "Lincoln Smith"] } 运行一个针对Abraham Lincoln的短语查询: GET /my_index/groups/_search { "query": { "match_phrase": {

kuangbin带你飞匹配问题二分匹配 + 二分图多重匹配 + 二分图最大权匹配 + 一般图匹配带花树

二分匹配:二分图的一些性质二分图又称作二部图,是图论中的一种特殊模型. 设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B),则称图G为一个二分图. 1.一个二分图中的最大匹配数等于这个图中的最小点覆盖数 König定理是一个二分图中很重要的定理,它的意思是,一个二分图中的最大匹配数等于这个图中的最小点覆盖数.如果你还不知道什么是最小点覆盖,我也在这里说一下:假如选

空三匹配和密集匹配的区别与联系

很多人包括一些业内人士都不清楚空三匹配(空中三角测量中的连接点匹配,亦即计算机视觉中的SFM算法中的同名点匹配,比如SIFT算法)和密集匹配(也叫立体匹配,立体对应或稠密匹配)有什么区别,于是经常会问诸如下列问题: 1. 做空三匹配的时候做的密集一点就是密集匹配了吧? 2. 空三匹配做完定向后就可以得到正射影像了吧? 3. 用sift也可以做密集匹配吧? 殊不知,以上三个问题的答案都是:NO! 下面我们就来说明一下空三匹配和密集匹配有什么区别和联系. 1. 定义空三匹配:在空中三角测量(SFM

WildcardMatching和Regex，通配符匹配和正则表达式匹配

WildcardMatching:通配符匹配算法分析: 1. 二个指针i, j分别指向字符串.匹配公式. 2. 如果匹配,直接2个指针一起前进. 3. 如果匹配公式是*,在字符串中依次匹配即可. 注意记录上一次开始比较的位置 Implement wildcard pattern matching with support for '?' and '*' '?' Matches any single character. '*' Matches any sequence of character

perl学习之：肯定匹配和否定匹配

tr/ / / 替换操作符不支持正则表达式也不具备双引号替换能力m/ / s/ / / 都支持正则表达式,并且可以提供或限制双引号替换能力 $string = "25abc8";$string =~ /abc(?=[0-9])/;(?=pattern) 前看声明,如果正则表达式在下一次匹配 pattern 风格,就开始匹配,而且不影响匹配效果.如/\w+(?=\t)/将匹配制表符是否恰好在一个字\w+后面出现,并且制表符不添加到$&的值中:$matched = $&