solr相似匹配

相似匹配

  在我们使用网页搜索时,会注意到每一个结果都包含一个 “相似页面” 链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent(MLT)和 MoreLikeThisHandler 实现了一样的功能。如上所述,MLT 是与标准 SolrRequestHandler 集成在一起的;MoreLikeThisHandler 与 MLT 结合在一起,并添加了一些其他选项,但它要求发布一个单一的请求。我将着重讲述 MLT,因为使用它的可能性更大一些。幸运的是,不需要任何设置就可以查询它,所以您现在就可以开始查询。

  MLT 要求字段被储存或使用检索词向量,检索词向量以一种以文档为中心的方式储存信息。MLT 通过文档的内容来计算文档中关键词语,然后使用原始查询词语和这些新词语创建一个新的查询。提交新查询就会返回其他查询结果。所有这些都可以用检索词向量来完成:只需将 termVectors="true" 添加到 schema.xml 中的 <field> 声明。

MoreLikeThisComponent 参数:

参数

 说明

  值域

mlt

在查询时,打开/关闭  MoreLikeThisComponent 的布尔值。

true|false

mlt.count

可选。每一个结果要检索的相似文档数。          

> 0

mlt.fl  

用于创建 MLT 查询的字段。               

任何被储存的或含有检索词向量的字段。

mlt.maxqt

可选。查询词语的最大数量。由于长文档可能会有很多关键词语,这样 MLT 查询可能会很大,从而导致反应缓慢或可怕的  TooManyClausesException,该参数只保留关键的词语。

> 0

要想使用匹配相似首先在 solrconfig.xml 中配置 MoreLikeThisHandler

<requestHandler    name="/mlt" class="solr.MoreLikeThisHandler">  
    </requestHandler>

然后我就可以请求

http://localhost:8080/skyCore/mlt?q=id%3A6F398CCD-2DE0-D3B1-9DD6-D4E532FFC531&mlt.true&mlt.fl=content&wt=xml&indent=true

上面请求的意思查找 id 为 6F398CCD-2DE0-D3B1-9DD6-D4E532FFC531 的 document ,然后返回与此document 在 name 字段上相似的其他 document。需要注意的是 mlt.fl 中的 field 的 termVector=true 才有效果

<field    name="content" type="text_smartcn" indexed="false"    stored="true" multiValued="false"    termVector="true"/>

使用SolrJ时也同样加入参数就可以

SolrQuery  query    = new SolrQuery();

query.set("qt", "/mlt");

query.set("mlt.fl","content");

query.set("fl", "id,");

query.set("q", "id: 6F398CCD-2DE0-D3B1-9DD6-D4E532FFC531");

query.setStart(0);

query.setRows(5);

QueryResponse     rsp = server.query(query);

SolrDocumentList list = rsp.getResults();

更多精彩内容请关注:http://bbs.superwu.cn

关注超人学院微信二维码:

关注超人学院java免费学习交流群:

时间: 2024-08-10 19:01:02

solr相似匹配的相关文章

Solr in action学习笔记 第二章Getting to know Solr

2.1Getting started *Solr实际是使用http通信,所以可以使用任何语言的API *Solr的一个core包含solr配置文件,lucene索引文件和solr的日志文件 在分布式系统的上下文中,成为collection *Solr还提供COre Admin API *query 当query参数设置好,实质上是向solr服务器发送一个http GET请求 搜索参数: 可以自己写到url里,尽量记住常用的搜索参数,对照solrJ的写法 SolrQuery parameters

用solr自动补全

自动补全已经变成了每一个应用程序基础部分特性.构建一个快速的,可扩展的自动补全对一个一直在增长数据的程序来说是个相当大的工程.我见过的其中最好的自动补全是Quora的搜索自动补全.我知道google和youtube也有最好的,但是我只想聚焦于小公司而不是巨头.这是一篇在Quora's autocomplete上解释的他们如何用C++设计构建的自动补全. 在这篇文章中,我们将使用solr搜索殷勤提供一个像样的自动补全.Solr像一个文档数据库一样工作,在这个数据库中,一条记录就是一个文档.在Sol

搜索引擎关键字智能提示的一种实现

问题背景 搜索关键字智能提示是一个搜索应用的标配,主要作用是避免用户输入错误的搜索词,并将用户引导到相应的关键词上,以提升用户搜索体验. 美团CRM系统中存在数以百万计的商家,为了让用户快速查找到目标商家,我们基于solrcloud实现了商家搜索模块.用户在查找商家时主要输入商户名.商户地址进行搜索,为了提升用户的搜索体验和输入效率,本文实现了一种基于solr前缀匹配查询关键字智能提示(Suggestion)实现. 需求分析 支持前缀匹配原则 在搜索框中输入"海底",搜索框下面会以海底

美团搜索-搜索引擎关键字智能提示的一种实现[转]

http://tech.meituan.com/pinyin-suggest.html --------------------------------------------------------------------- 快照: 问题背景 搜索关键字智能提示是一个搜索应用的标配,主要作用是避免用户输入错误的搜索词,并将用户引导到相应的关键词上,以提升用户搜索体验. 美团CRM系统中存在数以百万计的商家,为了让用户快速查找到目标商家,我们基于solrcloud实现了商家搜索模块.用户在查找商

解决solr搜索多词匹配度和排序方案

转载请标明出处:http://blog.csdn.net/hu948162999/article/details/47727159 本文主要介绍了在短语.句子.多词查询中,solr在控制查询命中数量.之后再对结果集进行排序. 在solr中 默认是or 查询,也就是说:如果搜索q 中 分出来的词越多,所匹配的数量也就越多.如:搜索短语  "中国联想笔记本" ,分词结果:中国 .联想 . 笔记本. 覆盖结果集:只要文档中包含这3个任意词,都给返回. 排序结果:按照solr的打分公式.默认匹

solr使用方法 完全匹配

最近一直被solr的搜索困扰,搜索汉字时不能搜索出自己想要的内容,经过研究和查询发现,问题出在没有完全匹配上,主要还是对solr使用不太熟练. 解决方法:以前UserRealname:某某家长,这样搜索出使用问题的,改为UserRealname:"某某家长" 外面加上双引号,必须是双引号.就OK了.

【Solr技巧】搜索的完全匹配方法

什么是完全匹配呢?比如 搜 “汪翰翔” 会出来包含汪,翰,翔三中词的结果,但是需求只需要 完全匹配 “汪翰翔” 的结果. 其方法是 在 将关键字 用 双引号 包起来. 例如 :http://localhost:8080/solr/select/?q=content:"汪翰翔"&version=2.2&start=0&rows=10&indent=on&sort=cDate desc&hl=true&hl.fl=content

solr 搜索 的 完全匹配方法

最近是用 solr 做搜索引擎,但是由于搜索特殊性,不需要分词后的检索结果,比如 搜 "汪翰翔" 会出来包含汪,翰,翔三中词的结果,但是需求只需要 完全匹配 "汪翰翔" 的结果, 其方法是 在 将关键字 用 双引号 包起来. 例如 :http://localhost:8080/solr/select/?q=content:"汪翰翔"&version=2.2&start=0&rows=10&indent=on&

solr精确查询,查询关键字分词后,指定满足匹配所有

一.solr查询,查询配置了查询分词器的字段,默认会对查询关键字做分词处理 1.如查询关键字F1501ZY000011,使用solr7自带的中文分词器,默认会分词为:f,1501,zy,000011 2.不使用defType=edismax参数的查询结果 二.使用参数defType=edismax&mm=100%,指定查询关键字分词后,满足匹配所有 三.java的solrj中指定defType=edismax参数 SolrQuery solrQuery = new SolrQuery(q);