solr特点三: 基于Solr实现排序定制化参考

排序实现有N种形式,最低成本、最快响应时间是目标
 一份索引,支持N种排序策略并且在线互不干扰是要考虑的
每一种实现,处理的场景是不同的,不要千篇一律

020排序,从索引到效果,有不少坑,这篇文章没有细说,原因是有些内容不好公开

几点基础概念回顾
(1)排序定制化不同于实现业务排序。

实现业务排序可以是查阶段,通过boost、各种func 组合、离线score等单独或者组合实现排序目标,
      
或者索引构建阶段的 field boost、document boost
      
或者索引构建阶段的postion、freq、length等的处理
      
或者干预vsm、
      
或者实现自己的function,
      
或者自定义queryparser引入自定义的query和相关weight、score等。
      
或者自定义querycomponent,然后彻底从query链路调整查询和排序
      
或者以上的组合

(2)排序定制化
    
这里特指solr已经默认自带的排序机制,默认vsm、默认sortbyField、默认的function集合包括他们的组合、
    
默认的booleanquery、phrasequery、luceneparser、dismax parser等
都不能满足排序需求的。
    
然后需要开口子,引入自己的排序。

(3)排序是动态的过程
    
绝对不是一次设置,永久有效的。随着数据集的变化、业务场景的变化、市场的变化等因素,排序只是阶段

性满足业务需求。这意味着排序是不间断的过程,没有最好,只有更好。

(4)排序是 one doc one score just
   
这里是说获取到了doc,就获取了这个doc的得分,doc的得分只关联这个doc自身的内容。间接的意思,每个doc的得分是自身闭包的,与其他doc的得分情况无关。

基于solr实现排序定制的几种有效、低成本实现
 (1) 简单、直接的  extends
ValueSourceParser

  在solrconfig.xml
中配置自己的valueSourceParser,查询结点通过name 对应的关键词调用相关排序。
  作用域是在查询中设置,需要的时候就启用
  eg 配置

查询
 query.add("sort", "sortRank([email protected])
asc");

(2)vsm bm25 的参数调整 extends SimilarityFactory{
  
配置在schema.xml中,作用域是整个solrcore。

(3)SearchComponent 的重写 extends SearchComponent
   这里面可以实现
默认排序+topN的二次排序;或者直接定义自己的排序
  
这里面的实现是深度的干预查询链路,甚至cache。
   这里的干预设计到shard请求,需要仔细验证
  
这里的干预有的需要parser的干预联合,用来解析参数
   关于o2o个性化排序,建议走这个模式

(4)关于o2o个性化排序
  
 
schema的配置:距离算法、距离精度
 
  
排序策略:过滤优先 or 结果优先 or 速度优先 ,然后会有不同角度的平衡
   

涉及具体业务细节和排序公式,这里省略 1w字

时间: 2024-10-02 02:48:59

solr特点三: 基于Solr实现排序定制化参考的相关文章

solr特点三: defType(查询权重排序)

Solr的defType有dismax/edismax两种,这两种的区别,可参见:http://blog.csdn.net/duck_genuine/article/details/8060026 下面示例用于演示如下场景: 有一网站,在用户查询的结果中,需要按这样排序: VIP的付费信息需要排在免费信息的前头 点击率越高越靠前 发布时间越晚的越靠前 这样的查询排序使用普通的查询结果的Order by是做不到的,必需使用solr的defType. 做法: 1.先看schema.xml的定义: <

solr特点三: QueryElevation(编辑结果排序)

在理想的情况下,搜索引擎只返回与用户查询相关的文档.而在现实的查询中,编辑(没发现更合适的表达)通常需要指定特定文档在搜索结果中的特定位置.这样做有很多原因.或许 “置顶” 的文档就是最好的查询结果.也可能是公司想让客户从相似的选择中找到利润率较高的产品.还可能是由第三方付费,提高某些查询词语的排名.不管是什么原因,对于一般的查询,要根据相关度来排名,让特定的文档出现在特定的位置,通常是很困难的(甚至是不可能的).而且,即便搜索引擎能为某个查询达到这个目的,它也很可能会在这个过程中破坏其他 50

OA系统信用盘新增三个极速彩版本定制化视觉服务的使用

AI应用开发实战 - 定制化视觉服务的使用 OA系统信用盘新增三个极速彩版    下载地址  QQ2952777280 OA系统信用盘新增三个极速彩版本程序源码参数说明: 运行环境:php5.2+mysql 源码类别:时时彩(彩票)现金网系统/两面盘 界面语言:繁体中文 源码授权:无加密文件及认证授权,永久性可直接使用. 版本支持:PC/WAP网页版 编程语言:PHP 零.定制化视觉服务简介 有的时候,在构建应用的过程中,在缺少强大计算资源与高性能算法的情况下,我们不一定需要自己从零开始训练模型

Fusion_基于Oracle ADF的定制化企业级IT系统解决方案

2014-12-31 Created By BaoXinjian 一.摘要 ADF(Application Development Framework)是Oracle公司为简化Java EE程序开发的复杂性专门开发的一种解决方案,是Oracle提供的下一代企业级应用开发框架. 同时,Oracle ADF也是Fusion体系架构中最重要的技术之一和Fusion Application的核心技术,Oracle日后的几乎全部产品都将转到ADF框架. 1. 开放性 Oracle ADF可以充分利用App

基于Solr的HBase多条件查询测试

转自:http://www.cnblogs.com/chenz/articles/3229997.html 背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力.针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证. 原理: 基于Solr的HBase多条件查询原理很简单,将HBas

基于Solr和Zookeeper的分布式搜索方案的配置

1.1 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使用SolrCloud来满足这些需求. SolrCloud是基于Solr和Zookeeper的分布式搜索方案,它的主要思想是使用Zookeeper作为集群的配置信息中心. 它有几个特色功能: 1)集中式的配置信息 2)自动容错

基于Solr的HBase多条件查询

基于Solr的HBase多条件查询——转载: 背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力. 针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证. 原理: 基于Solr的HBase多条件查询原理很简单,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,

三、Solr多核心及分词器(IK)配置

多核心的概念 多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题. 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也不会混在一起,也容易备份. ????每个索引库通过相对独立的url访问. ? 多核心的配置 还记得solr home吗

第三步solr实现MySQL 数据库数据表索引

1.修改索引地址:任意位置皆可,本文在E:\solr\下建了一个data文件夹,然后修改E:\solr\collection1\conf\solrconfig.xml 下的dir: 为创建的索引地址路径 <dataDir>${solr.data.dir:E:/solr/data}</dataDir> 2.建立数据库为es_data,在其下面建立一个名为news的数据表 3.在E:\solr\collection1\conf下新建一个data-config.xml文件,在里面添加以下