如何合理的控制solr查询的命中的数量？

在solr里面，如何合理的控制的命中的数量？

在一些日常的文章中或一些信息中，都有一些高频词，而这些高频词，在参与查询时，往往会造成，大量的结果集命中。

什么意思呢？举个例子，假如我们现在做的是饭店的搜索，在我们的索引库里有一列name这个field，这里面大部分都是xxx饭店，假如你搜索的时候搜一个xxx饭店，会被分词成：

xxx

饭店

然后xxx命中只有10条结果集，而饭店确命中了20万结果集，这么以来总结果可能就有20多万条，造成了大量的数据命中，一方面显示了信息的丰富性，另一方面可能给用户造成太多的困惑。

我们分析下在全文检索中两个重要的概念

查准率

召全率

在Lucene，Solr和ElasticSearch里面一般的分词的查询结果都会对这两个率做一个最好效果的调配，而这个默认的相关性评分规则就是：

相关性评分最高的排在前面，也就是查准的体现
相关性低的排在后面，也就是查全的体现

当然上面的结论，并不是百分百正确的，因为由于Lucene底层的设计，可能会导致一些奇怪的效果，就是最精确的没有排在最前面，这种问题大概只有10%的概率，我们可以索引两个字段，来避免这种问题，一个分词，一个不分词，查询时候，可以一起查询两个字段.

回到刚才饭店的那个问题，假如现在有想要搜索一个：

北京车道沟北里小庄十里香饭店，分词后的情况如下：

车道


沟
北里
小庄
十里
香

饭店

注意，在整个索引库里面大部分要搜索的数据都含有北京和饭店两个词，所以这一下几乎会索引里面的所有数据都查询出来了，虽然查询排名还可以，但命中量太大了，超过4页之后几乎都是北京xxxx饭店了，跟主题的搜索没啥关系，所以我们可以采取一些策略来避免这种情况:

solr默认的搜索策略，是分词后的term的or的关系，最后结果集全部返回，如果我们改成and，那就是精确匹配了，但是有一点就是，如果是精确的匹配，某些时候用户输入的不完整的词就失去了全文检索的含义了，所以我们要采取一种综合的策略，既保证查准，又能保证召回，这样才能实现？

这个东西直接用我们的全文检索框架是没法实现的，有个思路不错，就是我们对要搜索的词，提取出句子的主干，然后主干部分在检索时，是必须要命中的，如果不命中，就算该条数据与查询的词，相关性不大，这个方法不错，但前提是你如何在大规模的数据里面精准的提出这些精确的主干词呢？使用机器学习或者是文本挖掘？答案是肯定能做，只是需要另外设计了，这是最好的解决搜索的命中数量太多的办法。

还有一个办法，是一种治标不治本的办法，比较容易实现，就是限制每次分词后最大匹配term的个数，也就是像

车道


沟
北里
小庄
十里
香

饭店

必须命中3个或更多的term，我才认为相关性更大，或者有一个百分比来限制80%以上的命中，就算此条记录不错。这个使用solr的edismax可以解决，方法如下：

使用edismax，在q里写完

name：北京xxxxx饭店后

在Raw Query Paramters参数里面写

defType=edismax&mm=80%25

然后查询即可，mm是最小匹配的数量，可以是个固定的值，也可也是个百分比，因为散仙是在solr的admin页面查询，所以需要把%替换成url字符%25，这样才能正确发送到solr的服务端具体的资料请看：

edismax函数介绍

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2024-10-04 17:58:26

如何合理的控制solr查询的命中的数量？的相关文章

solr 控制多词联合查询命中的数量

1.本文涉及全文检索中那两个概念? 2.众多结果中,排序的标准是什么? 3.如何合理的控制solr查询的命中的数量和质量? 在一些日常的文章中或一些信息中,都有一些高频词,而这些高频词,在参与查询时,往往会造成,大量的结果集命中. 什么意思呢? 举个例子,假如我们现在做的是饭店的搜索,在我们的索引库里有一列name这个field,这里面大部分都是xxx饭店,假如你搜索的时候搜一个xxx饭店,会被分词成: xxx 饭店然后xxx命中只有10条结果集, 而饭店确命中了20万结果集,这么以来总结果可

Solr查询详解

一. 查询参数说明在做solr查询的时候,solr提供了很多参数来扩展它自身的强大功能!以下是使用频率最高的一些参数! 1.常用 q - 查询字符串,这个是必须的.如果查询所有*:* ,根据指定字段查询(Name:张三 AND Address:北京) fq - (filter query)过虑查询,作用:在q查询符合结果中同时是fq查询符合的,例如:q=Name:张三&fq=CreateDate:[20081001 TO 20091031],找关键字mm,并且CreateDate是200810

solr 查询

solr 查询参数说明常用 q - 查询字符串,必须的. fl - 指定返回那些字段内容,用逗号或空格分隔多个. start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用. rows - 指定返回结果最多有多少条记录,配合start来实现分页. sort - 排序,格式:sort=<field name>+<desc|asc>[,<field name>+<desc|asc>]- . 示例:(inStock desc, price a

7.Solr查询参数

一.基本查询 q 查询的关键字,此参数最为重要,例如,q=id:1,默认为q=*:*, fl (field list)指定返回哪些字段,用逗号或空格分隔,注意:字段区分大小写,例如,fl= id,title,sort start 返回结果的第几条记录开始,一般分页用,默认0开始 rows 指定返回结果最多有多少条记录,默认值为 10,配合start实现分页 sort 排序方式,例如price asc, id desc wt (writer type)指定输出格式,有 xml, jso

Solr查询语法笔记

1.常用 q - 查询字符串,这个是必须的.如果查询所有*:* ,根据指定字段查询(Name:张三 AND Address:北京) fq - (filter query)过虑查询,作用:在q查询符合结果中同时是fq查询符合的,例如:q=Name:张三&fq=CreateDate:[20081001 TO 20091031],找关键字mm,并且CreateDate是20081001 fl - 指定返回那些字段内容,用逗号或空格分隔多个. start - 返回第一条记录在完整找到结果中的偏移位置,

solr与.net系列课程(四)solr查询参数的讲解与.net如何获取solr数据

solr与.net系列课程(四)solr查询参数的讲解与.net如何获取solr数据上一节我们完成了solr连接数据库,细心的朋友会发现一个问题,就是solr其实和语言没有任何关系,配置完成后任何语言都可以直接调用,本章我们主要对solr的查询做出讲解,然后就是新接触的人最关心的.net如何获取solr中的数据. 本节我准备了一个300万左右的数据表,为大家做演示然后我们开始配置schema.xml 文件: <field name="id" type="string

Solr学习总结（四）Solr查询参数

今天还是不会涉及到java和数据库操作,主要还是总结Solr 的查询参数,还是那句话,只有先明白了solr的基础内容和查询语法,后续学习solr 的java和数据库操作,都是水到渠成的事.这里先列出solr查询所需要的参数 wiki 地址:http://wiki.apache.org/solr/FrontPage, 里面有各个参数详细的介绍. 一.基本查询 q 查询的关键字,此参数最为重要,例如,q=id:1,默认为q=*:*, fl 指定返回哪些字段,用逗号或空格分隔,注意:字段区分大小写

solr查询语法详解

查询语法 1.匹配所有文档:*:* 2.强制.阻止和可选查询: 1) Mandatory:查询结果中必须包括的(forexample, only entry name containing the word make) Solr/LuceneStatement:+make,+make +up ,+make +up +kiss 2) prohibited:(for example, all documentsexcept those with word believe) Solr/Lu

solr查询语法（solr query）

1. CoreQueryParam查询的参数 1) q: 查询字符串,必须的. 2) q.op: 覆盖schema.xml的defaultOperator(有空格时用"AND"还是用"OR"操作逻辑),一般默认指定. 3) df: 默认的查询字段,一般默认指定. 4) qt: query type,指定查询使用的Query Handler,默认为"standard". 5) wt: writer type.指定查询输出结构格式,默认为"

猜你喜欢

ubuntu环境下安装Redis

1.命令行安装 sudo apt-get update sudo apt-get install redis-server 2.启动redis $redis-server 3208:C 30 Aug ...

2015总结

回想2015年感慨颇多.踏出学校的象牙塔面对社会这个大染缸未免有种种的不适应. 在生活面前过往种的种种恶果都涌现出来了.过多的感慨已经发过了再次总结自己在2015年学会的以及2016年的计划吧. 20 ...

使用iostream Iterator

以前只知道IteratorIterator class.平时编程中用的最多的就是拿他遍历某种容器. 今天遇到一种新的使用方式,记录之. 比如有这样一个任务,从标准输入设备读取一串string元素,将它 ...

一个很有趣的算法

var arr = [ 3000,0,1000,'aa', 2000, 4000, 8000, 6000, 7000, 5000]; for (i = 0; i < arr.length; i+ ...

npm 全局环境变量配置

我们要先配置npm的全局模块的存放路径以及cache的路径,例如我希望将以上两个文件夹放在NodeJS的主目录下,便在NodeJs下建立”node_global”及”node_cache”两个文件夹. ...

【总结】C++静态成员函数及测试用例

1.静态成员函数可以用普通函数指针储存,普通成员函数必须用类函数指针储存 class A { public: static void fun() { cout << "hello ...

linux权限分配

查看当前目录,附带上权限级别的 ll [[email protected] text]# lltotal 24drwxr-xr-x. 3 root root 4096 Sep 26 00:29 ad ...

UVa 11754 (中国剩余定理枚举) Code Feat

如果直接枚举的话,枚举量为k1 * k2 *...* kc 根据枚举量的不同,有两种解法. 枚举量不是太大的话,比如不超过1e4,可以枚举每个集合中的余数Yi,然后用中国剩余定理求解.解的个数不够S个 ...

Linux进程实践(1) --Linux进程编程概述

进程 VS. 程序什么是程序? 程序是完成特定任务的一系列指令集合. 什么是进程? [1]从用户的角度来看:进程是程序的一次执行过程 [2]从操作系统的核心来看:进程是操作系统分配的内存.CPU时间 ...

LRJ

//3-1 1 #define _CRT_SECURE_NO_WARNINGS 2 3 #include <cstdio> 4 5 int main() 6 { 7 int T; 8 ch ...

fortran 函数的调用标准

Fortran函数的调用标准在编译时使用iface声明.如iface:default.表示採用的是default标准. fortran的调用标准有 [1] default: Tells the com ...

应用程序跳转

1. 应用场景: 使用第三方登录 : 需要用户授权, 授权完成后, 返回应用应用推广, 积分墙支付宝, 第三方支付, 淘宝, 电话费充值 2. 应用程序跳转 ----- 实际上是调用其他应 ...

Myeclipse重装后的必要配置

一.JDK位置每台机器同意多个jdk版本号存在,编译时选择须要使用的jdk就可以.MyEclipse->Properties->Java->Installed JRES选择jdk位 ...

Understand How Java Programs Work

Java programms that run locally on your computer are called applications. Programs that run on web p ...

-bash: ./job.sh: /bin/sh^M: bad interpreter: 没有那个文件或目录

昨天在windows下用写字板写了个shell脚本,使用winscp上传到linux上运行的时候发现运行不了,提示-bash: ./job.sh: /bin/sh^M: bad interpreter ...

canny中的非极大抑制

canny边缘检测首先对图像做高斯滤波和生成梯度图,得到的梯度图中,边缘的宽度可能大于一个象素,nonmaxima suppression的过程是沿着边缘的梯度方向进行检测,把不是局部最大值的象素置0 ...

Linux系统编程——特殊进程之僵尸进程

僵尸进程(Zombie Process) 进程已执行结束,但进程的占用的资源未被回收.这种进程称为僵尸进程. 在每一个进程退出的时候,内核释放该进程全部的资源.包含打开的文件.占用的内存等. 可是仍然 ...

C++异常机制的实现方式和开销分析（大图，编译器会为每个函数增加EHDL结构，组成一个单向链表，非常著名的“内存访问违例”出错对话框就是该机制的一种体现）

白杨 http://baiy.cn 在我几年前开始写<C++编码规范与指导>一文时,就已经规划着要加入这样一篇讨论 C++ 异常机制的文章了.没想到时隔几年以后才有机会把这个尾巴补完 :- ...

对沉浸式状态栏的理解

Android 4.4版本加入了沉浸式者这项功能,相信大家手中的安卓机也早已是Android 4.4甚至更高版本.越来越多的应用实现了沉浸式状态栏这一个效果. 我们先看一个Demo,来熟悉一下沉浸式 ...

pxe+kickstart 实现基于网络的无人值守安装操作系统

基于网络的无人值守安装操作系统简介: 1.pxe PXE(preboot execute environment,预启动执行环境)是由Intel公司开发的最新技术,工作于Client/Server的 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.