coreseek/sphinx中的匹配模式

所谓匹配模式就是用户如何根据关键字在索引库中查找相关的记录。

SPH_MATCH_ALL, 匹配所有查询分词(默认模式);

如“手机配件”,不匹配 “我有一部手机”,但可以匹配 “手机坏了,需要找配件”。

因为“手机配件” 被分成 “手机”,“配件”两个词,匹配条件是必须同时包含这两个词,所以“我有一部手机”不符合匹配要求。

SPH_MATCH_ANY, 匹配查询词中的任意一个分词;

如“手机配件”,会匹配“我有一部手机”,因为索引库只要包含任一个分词即可被搜到,当然也能匹配“手机坏了,需要找配件”。

SPH_MATCH_PHRASE, 将整个查询看作一个词组,要求按顺序完整匹配;

这个与select * from [tab] where key like ‘%手机配件%‘相类似,如“手机配件”,不匹配 “手机坏了,需要找配件”,但可以匹配 “你这儿有手机配件吗?”。

SPH_MATCH_BOOLEAN, 将查询看作一个布尔表达式, 可以简单的与或非运算;

如( cat !dog ) | ( cat !mouse)

意思是搜索出所有匹配cat,但不匹配dog和mouse的查询分词。

SPH_MATCH_EXTENDED2,扩展匹配模式

将查询看作一个Sphinx/Coreseek内部查询语言的表达式。

在扩展查询模式中可以使用如下特殊操作符:

  • 或(OR)操作符:

hello | world

  • 非(NOT)操作符:

hello -world

hello !world

  • 字段(field)搜索符:

@title hello @body world

#title 字段中包含hello body字段中包含world

  • 字段限位修饰符

@body[50] hello

#body位数限制在50以内

  • 多字段搜索符:

@(title,body) hello world

#title 或 body字段中包含Hello world

  • 全字段搜索符:

@* hello

#只要其中一列包含hello

  • 近似搜索符:

"hello world"~10

#hello world之间最多有10个词

  • 阀值匹配符:

"the world is a wonderful place"/3

#至少匹配3个词

  • 严格有序搜索符(即“在前”搜索符):

aaa << bbb << ccc

#aaa,bbb,ccc必须按先后顺序出现

  • 字段开始和字段结束修饰符

^hello  ...  world$

#限定必须以hello开头,以world结尾

如:"hello world" @title "example program"~10 @body python -(php|perl) @* code

要求同时匹配:

在文档的任意字段中找相邻的“hello”和“world”

文档的title字段中还必须包含 “example”和“program”这两个词,并且他们之间至多有10个(不包括10个)其他的词

同时,body字段必须含有词“python”,但既没有“php”也没有“perl”

任一字段中包含”code“

SPH_MATCH_EXTENDED, 同SPH_MATCH_EXTENDED2, 为了兼容旧版本;

SPH_MATCH_FULLSCAN, 强制使用下文所述的“完整扫描”模式来对查询进行匹配;

注意,在此模式下,所有的查询词都被忽略,尽管过滤器、过滤器范围以及分组仍然起作用,但任何文本匹配都不会发生.

这里不做文本匹配,即使你传递查询词也将被忽略,一般作为过滤来用,比如说,我在餐厅索引中搜索北京的所有餐厅,我只要将北京地名的id用SetFilter方法来过滤即可。

PHP中通过setMatchMode函数来设置,如:

<?php

$sc = new SphinxClient();

$sc->setMatchMode(SPH_MATCH_ANY);

coreseek/sphinx中的匹配模式,布布扣,bubuko.com

时间: 2024-10-21 10:08:10

coreseek/sphinx中的匹配模式的相关文章

SQL中常用模糊查询的四种匹配模式

执行数据库查询时,有完整查询和模糊查询之分.一般模糊语句如下:SELECT 字段 FROM 表 WHERE 某字段 Like 条件 其中关于条件,SQL提供了四种匹配模式:1.%:表示任意0个或多个字符.可匹配任意类型和长度的字符,有些情况下若是中文,请运用两个百分号(%%)表示.比如 SELECT * FROM [user] WHERE u_name LIKE '%三%'将会把u_name为"张三","张猫三"."三脚猫","唐三藏&

SQL中常用模糊查询的四种匹配模式&amp;&amp;正则表达式

执行数据库查询时,有完整查询和模糊查询之分.一般模糊语句如下:SELECT 字段 FROM 表 WHERE 某字段 Like 条件 其中关于条件,SQL提供了四种匹配模式:1.%:表示任意0个或多个字符.可匹配任意类型和长度的字符,有些情况下若是中文,请运用两个百分号(%%)表示.比如 SELECT * FROM [user] WHERE u_name LIKE '%三%'将会把u_name为“张三”,“张猫三”.“三脚猫”,“唐三藏”等等有“三”的记录全找出来.另外,如果须要找出u_name中

正则表达式中\{\} --匹配模式出现的次数

正则表达式: \{\}    匹配字符出现的次数 使用*可匹配所有匹配结果人一次,但如果只要制定次数,就应该使用\{\},此模式有三种形式. pattern\{n\}         匹配模式出现n次 pattern\{n,\}        匹配模式出现最少n次 pattern\{n,m\}         匹配模式出现n到m次,n,m分别为0-255之间的任意整数 例: A\{2\}B      匹配值为AAB A\{4\}B        匹配值为AAAAB或者AAAAAAB,但是不能为A

php对sphinx接口的查询模式

有如下可选的匹配模式: SPH_MATCH_ALL, 匹配所有查询词(默认模式); SPH_MATCH_ANY, 匹配查询词中的任意一个; SPH_MATCH_PHRASE, 将整个查询看作一个词组,要求按顺序完整匹配; SPH_MATCH_BOOLEAN, 将查询看作一个布尔表达式 SPH_MATCH_EXTENDED, 将查询看作一个CoreSeek/Sphinx内部查询语言的表达式 . 从版本Coreseek 3/Sphinx 0.9.9开始, 这个选项被选项SPH_MATCH_EXTEN

Coreseek/sphinx全文检索的了解

Coreseek/sphinx全文检索的了解 概述: 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法,全文检索是将存储于数据库中整本书.整篇文章中的任意内容信息查找出来的检索.它可以根据需要获得全文中有关章.节.段.句.词等信息,也可以进行各种统计和分析. 定义: 全文检索易龙天网的设计师认为可以把它划分为二部分: 全文 全文顾名思义:就是全文检索的对象,它可能是一段话,也可能是一片文章,它可能是一个文件比如:word,txt也能是任意一种扩展名结尾的文件 检索 描文章中的每一个词

php中的组合模式

刚看完了<深入php面向对象.模式与实践>一书中组合模式这块内容,为了加深理解和记忆,所以着手写了这篇博客. 为方便后续理解,此处先引入两个概念,局部对象和组合对象. 局部对象:无法将其他对象组合到自身内部属性上的对象.即不能组合其他对象的对象. 组合对象:可以将其他对象组合到自身内部属性上的对象.即可以组合其他对象的对象. 注:将对象A的某个属性中存储着对象B对象的引用,则表示A与B有组合关系,其中A将B组合到了自身内部. 首先我们通过给出下面的业务需求,来引入组合模式: 业务部门想要开发一

制作类似ThinkPHP框架中的PATHINFO模式功能(二)

距离上一次发布的<制作类似ThinkPHP框架中的PATHINFO模式功能>(文章地址:http://www.cnblogs.com/phpstudy2015-6/p/6242700.html)已经过去好多天了,今晚就将剩下的一些东西扫尾吧. 上一篇文章已经实现了PATHINFO模式的URL,即我们访问MVC模式搭建的站点时,只需要在域名后面加上(/module/controller/action)即可,很智能化.并且通过new Object时的自动触发函数实现类文件的自动载入,因此只要我们搭

grep中正则匹配的使用

如要匹配Computer或computer两个单词,可做如下操作: [Cc]mputer “.”允许匹配ASCII集中任意字符,或为字母,或为数字. 使用\{\}匹配模式结果出现的次数 匹配字母A出现两次,并以B结尾,操作如下: A\{2\}B 匹配A至少4次,使用: A\{4,\}B 如给出出现次数范围,例如A出现2次到4次之间: A\{2,4\}B 在grep命令中输入字符串参数时,最好将其用双引号括起来.例如:“mystring”.这样做 有两个原因,一是以防被误解为shell命令,二是可

正则匹配模式汇总(一)

正则表达式提供另一种强大的文本搜索和处理方式,对于正则表达式,不同语言有着不同的实现,JavaScript采用的Perl5的语法.对于极少数匹配模式是简单的全字符文本的情况,我们往往会采用indexOf这样的方法,但是多数情况下,匹配模式往往都更为复杂. 1.语法 1)在JavaScript中我们可以采用内建构造器RegExp()来创建正则表达式的对象:  var re = new RegExp("j.*t") 2)当然除了使用RegExp对象,我们可以采用更为简便的正则文本标记法 v