solr 控制多词联合查询命中的数量

1.本文涉及全文检索中那两个概念？

2.众多结果中，排序的标准是什么？

3.如何合理的控制solr查询的命中的数量和质量？

在一些日常的文章中或一些信息中，都有一些高频词，而这些高频词，在参与查询时，往往会造成，大量的结果集命中。

什么意思呢？举个例子，假如我们现在做的是饭店的搜索，在我们的索引库里有一列name这个field，这里面大部分都是xxx饭店，假如你搜索的时候搜一个xxx饭店，会被分词成：

xxx

饭店

然后xxx命中只有10条结果集，而饭店确命中了20万结果集，这么以来总结果可能就有20多万条，造成了大量的数据命中，一方面显示了信息的丰富性，另一方面可能给用户造成太多的困惑。

我们分析下在全文检索中两个重要的概念

查准率召全率

在Lucene，Solr和ElasticSearch里面一般的分词的查询结果都会对这两个率做一个最好效果的调配，而这个默认的相关性评分规则就是：

相关性评分最高的排在前面，也就是查准的体现
相关性低的排在后面，也就是查全的体现

当然上面的结论，并不是百分百正确的，因为由于Lucene底层的设计，可能会导致一些奇怪的效果，就是最精确的没有排在最前面，这种问题大概只有10%的概率，我们可以索引两个字段，来避免这种问题，一个分词，一个不分词，查询时候，可以一起查询两个字段.

回到刚才饭店的那个问题，假如现在有想要搜索一个：

北京车道沟北里小庄十里香饭店，分词后的情况如下：

车道

沟

北里

小庄

十里

香

饭店

注意，在整个索引库里面大部分要搜索的数据都含有北京和饭店两个词，所以这一下几乎会索引里面的所有数据都查询出来了，虽然查询排名还可以，但命中量太大了，超过4页之后几乎都是北京xxxx饭店了，跟主题的搜索没啥关系，所以我们可以采取一些策略来避免这种情况:

solr默认的搜索策略，是分词后的term的or的关系，最后结果集全部返回，如果我们改成and，那就是精确匹配了，但是有一点就是，如果是精确的匹配，某些时候用户输入的不完整的词就失去了全文检索的含义了，所以我们要采取一种综合的策略，既保证查准，又能保证召回，这样才能实现？

这个东西直接用我们的全文检索框架是没法实现的，有个思路不错，就是我们对要搜索的词，提取出句子的主干，然后主干部分在检索时，是必须要命中的，如果不命中，就算该条数据与查询的词，相关性不大，这个方法不错，但前提是你如何在大规模的数据里面精准的提出这些精确的主干词呢？
使用机器学习或者是文本挖掘？答案是肯定能做，只是需要另外设计了，这是最好的解决搜索的命中数量太多的办法。还有一个办法，是一种治标不治本的办法，比较容易实现，就是限制每次分词后最大匹配term的个数，也就是像

车道

沟

北里

小庄

十里

香

饭店

必须命中3个或更多的term，我才认为相关性更大，或者有一个百分比来限制80%以上的命中，就算此条记录不错。这个使用solr的edismax可以解决。

两种解决方法，如下：

一：使用edismax，在q里写完

name：北京xxxxx饭店后

在Raw Query Paramters参数里面写

defType=edismax&mm=80%25

然后查询即可，mm是最小匹配的数量，可以是个固定的值，也可也是个百分比。

二：在solr 的schema.xml中把 solrQueryParser 的defaultOperator 变成AND

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2024-10-10 16:26:25

solr 控制多词联合查询命中的数量的相关文章

解决solr搜索多词匹配度和排序方案

转载请标明出处:http://blog.csdn.net/hu948162999/article/details/47727159 本文主要介绍了在短语.句子.多词查询中,solr在控制查询命中数量.之后再对结果集进行排序. 在solr中默认是or 查询,也就是说:如果搜索q 中分出来的词越多,所匹配的数量也就越多.如:搜索短语 "中国联想笔记本" ,分词结果:中国 .联想 . 笔记本. 覆盖结果集:只要文档中包含这3个任意词,都给返回. 排序结果:按照solr的打分公式.默认匹

如何合理的控制solr查询的命中的数量？

在solr里面,如何合理的控制的命中的数量? 在一些日常的文章中或一些信息中,都有一些高频词,而这些高频词,在参与查询时,往往会造成,大量的结果集命中. 什么意思呢? 举个例子,假如我们现在做的是饭店的搜索,在我们的索引库里有一列name这个field,这里面大部分都是xxx饭店,假如你搜索的时候搜一个xxx饭店,会被分词成: xxx 饭店然后xxx命中只有10条结果集, 而饭店确命中了20万结果集,这么以来总结果可能就有20多万条,造成了大量的数据命中,一方面显示了信息的丰富性,另一方面可能

基于Solr的多表join查询加速方法

前言 DT时代对平台或商家来说最有价值的就是数据了,在大数据时代数据呈现出数据量大,数据的维度多的特点,用户会使用多维度随意组合条件快速召回数据.数据处理业务场景需要实时性,需要能够快速精准的获得到需要的数据.之前的通过数据库的方式来处理数据的方式,由于数据库的某些固有特性已经很难满足大数据时代对数据处理的需求. 所以,在大数据时代使用hadoop,hive,spark,作为处理离线大数据的补充手段已经大行其道. 以上提到的这些数据处理手段,只能离线数据处理方式,无法实现实时性.Solr作为补充

Mysql联合查询UNION和UNION ALL的使用介绍

UNION和UNION ALL的作用和语法 UNION 用于合并两个或多个 SELECT 语句的结果集,并消去表中任何重复行.UNION 内部的 SELECT 语句必须拥有相同数量的列,列也必须拥有相似的数据类型.同时,每条 SELECT 语句中的列的顺序必须相同.SQL UNION 语法: SELECT column_name FROM table1UNIONSELECT column_name FROM table2 注释:默认地,UNION 操作符选取不同的值.如果允许重复的值,请使用 U

MVC5+EF6简单实例---以原有SQLServer数据库两表联合查询为例

工具:VS.net2013.EF6.MVC5.SQLServer2008 参考出处: http://www.cnblogs.com/slark/p/mvc-5-get-started-create-project.html http://www.cnblogs.com/miro/p/4288184.html http://www.cnblogs.com/dotnetmvc/p/3732029.html 一.准备工作在SqlServer上创建数据库:Element 模拟两个表并插入数据:SysU

mysql连接查询，子查询，联合查询

一.连接查询(多表查询) emp表 dept表 1.交叉连接实际上,交叉连接是将两个表不设定任何条件的连接结果. 交叉连接通常也被叫做"笛卡尔积"--数学上可能比较多. 语法: from 表1 [cross] join 表2 ; //可见交叉连接只是没有on条件而已. cross这个词也可以省略,还可以使用inner这个词代替 2.内连接: 语法: from 表1 [inner] join 表2 on 表1.字段1=表2.字段2: 含义:找出(过滤)在交叉连接的

数据库之联合查询和连接查询

http://blog.csdn.net/memgxingfeixiang/article/details/52765208 1.JOIN和UNION区别join 是两张表做交连后里面条件相同的部分记录产生一个记录集,union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集. JOIN用于按照ON条件联接两个表,主要有四种:INNER JOIN:内部联接两个表中的记录,仅当至少有一个同属于两表的行符合联接条件时,内联接才返回行.我理解的是只要记录不符合ON条件,就不会显示在结果集

MySQL的查询,子查询,联结查询,联合查询

一.mysql查询的五种子句where(条件查询).having(筛选).group by(分组).order by(排序).limit(限制结果数) 二.子查询1.where 子查询SELECT * FROM tb1 WHERE cat_id IN (SELECT max(id) FROM tb2 GROUP BY cat_id); 2.from 子查询SELECT t2_id FROM (SELECT t2_id FROM tb2 ORDER BY t2_id DESC); 3.exists

两个表联合查询获取聊天表中用户最新的一条聊天数据

一个用户表,一个聊天记录表,两个表联合查询获取聊天表中用户最新的一条聊天数据 select c.contentfrom sixin as c where c.tid = a.user_idorder by ctime desc limit 0,1) as content,(select c.statusfrom sixin as c where c.tid = a.user_idorder by ctime desc limit 0,1) as status from users as a, s

猜你喜欢

linux下后台服务程序的启动

使用近10年的linux开发,服务器上服务程序脚本,真的不会写,什么守护进程,实在是不好意思,找到一个简单的方法,虽然称不上正规启动,但也能用,总结如下: 程序后台服务: nohup /home/s ...

iframe

首先使用$ionicModal创建一个弹出层可以覆盖整个页面,具体就看大家的业务需求了在modal中加入如下的代码: <ion-modal-view> <ion-header-bar ...

二叉树的镜像——19

完成一个函数,输入一个二叉树,该函数输出它的镜像. 镜像其实就是在转变成镜子当中的像,观察可以发现,根结点不变,左右结点交换顺序,然后以左右结点为根结点,其左右结点再次交换顺序,依次类推,所以可 ...

LeetCode232:Implement Queue using Stacks

Implement the following operations of a queue using stacks. push(x) – Push element x to the back of ...

等差数列问题

题目描述 Description 给定n(n>=1),用递归的方法计算1+2+3+4+...+(n-1)+n 输入输出格式 Input/output 输入格式:一行,一个数n输出格式: 一行,结 ...

JavaScript代码规范和性能整理

性能 Js在性能方面有多要注意的地方: 避免全局查找 Js性能优化最重要的就是注意全局查找,因为作用域的查找是先找局部作用域在没有找到之后在去上一级作用域查找直到全局作用域,所以全局作用域查找的性能消 ...

APIJSON，让接口见鬼去吧！

我: https://github.com/TommyLemon/APIJSON 服务端: 什么鬼? 客户端: APIJSON是啥? 我: APIJSON是一种JSON传输结构协议. 客户端可以定义任 ...

简单输出随机验证码图片

1. 创建一个servlet 1 package ztq.servlet.study; 2 3 import java.awt.Color; 4 import java.awt.Font; 5 imp ...

Python——运算符重载(1)

运算符重载关键概念: 1.运算符重载让类拦截常规的Python运算. 2.类可重载所有的Python表达式运算符. 3.类也可重载打印.函数调用.属性点号运算等内置运算. 4.重载使类实例的行为像内 ...

8.2.6 PEB —— PEB结构值不正确的问题

书中作者使用 dt _PEB xxxxxx 命令来查看当前进程的PEB结构. 实际操作后PEB结构显示的成员值: 作为进程链表的LDR结构居然没有值,这显然是不正常的,地址也没有输错,问题到底出在哪里 ...

微信钱包官方客服电话是什么

微信钱包官方客服电话是什么客服电话:( O571-852O-0558)业务办理: 转账, 提现, 退款, 解冻,充值等等综合业务办理中心. 一.7天退款承诺公司商品,我们为您提供7天内,未消费可无条 ...

Android技术15：自定义控件实现

在Android开发中,常用的组件有时候无法满足我们的需求,因此我们需要自定义组件,这样可以提高组件的复用性,通过继承已有的组件,在此基础上对塔改进,下面演示简单一个一个按钮控件,塔包含2个Image ...

SharePoint服务器端对象模型之访问网站和列表数据（Part 3）

(三)视图与传统意义上的数据视图类似,SharePoint中的列表视图指定了列表中数据的筛选条件.排序条件.分组条件.显示栏/字段.显示条目数.显示样式等内容.在SharePoint中,使用SPVi ...

下一步开发的技术点

关于富文本客户端使用 1.采用eWebEditor,不能在项目中使用其它富文本编辑器 2.富文本编辑器中所有上传的附件,比如,图片,动画,视频等,均要求直传到七牛云的云存储中,不能上传到TOMCAT上 ...

Checkbox indeterminate属性

CheckBox的indeterminate是一个独立的属性,和CheckBox的checked.status的取值无关,也就是说它只会影响CheckBox的外观显示,我们仍然可以正常的使用脚本读取c ...

JAVA+C笔记

很久前的东西现在回头看看这条路上也走了蛮远了突然翻出来挺欣慰的没不小心删掉很知足了虽然很多知识点现在看都很渣.. 事实上本来就是很渣-- 好歹是一番良苦用心啊----直接贴上来吧,.就不删 ...

linux，强大的history命令

如果你经常使用 Linux 命令行,那么使用 history(历史)命令可以有效地提升你的效率.本文将通过实例的方式向你介绍 history 命令的 15 个用法. 使用 HISTTIMEFORMAT ...

C语言宏判断有符号无符号整型变量

#define ISUNSIGNED(x) ((x)>=0&&~(x)>=0) #define ISSINGNED(x) ((x)>=0?((~(x))<0?t ...

知识漏洞

一:final的用法遇到的案例: public static final String Index = "default"; 为什么使用final呢? 答:St ...

FILE_OBJECT

https://msdn.microsoft.com/en-us/library/windows/hardware/ff545834(v=vs.85).aspx The FILE_OBJECT str ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.