关于Rocchio算法和向量空间模型反馈

什么是相关反馈以及向量空间检索模型在此不叙。

Rocchio公式是这样的,省掉不相关部分,因为相关部分更重要。

  1. 有研究表明,在用户只反馈一两篇相关文档的情况下,如果用户同时标明文档中的哪些段落是相关的,并允许检索系统将相关段落而不是整个相关文档的向量表示加入到原始查询中,那么相关反馈的效果会明显提高,为什么呢?

请先看下图

标明哪些段落是相关的,也就相当于增加了相关的索引词,通过公式计算出的新的查询向量的值也就更加合理,关于相关索引词的相似度也就更大,故检索效果会显著提高。

2.同一研究表明,一旦用户返回了足够的反馈结果(比如10-20篇相关文档),同时并没有标明文档中哪些段落是相关的,如果使用整个相关文档的向量加入到原始查询中,系统同样可以得到很好的效果,解释其中的原因。

不标明段落相关,但是把整个相关文档向量加入到原始查询中,根据公式仍然可以知道,这将大大提高新的查询向量关于相关文档的相似度,从而提高检索效果。

参考文献

http://www.docin.com/p-116849541.html



时间: 2024-12-28 12:22:46

关于Rocchio算法和向量空间模型反馈的相关文章

25.TF&IDF算法以及向量空间模型算法

主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定term的doc.must/must not/should(过滤.包含.不包含 .可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据. 二.TF/IDF 这一步就是es为boo

【RS】利用局部隐含空间模型进行Top-N推荐

[论文标题]Local Latent Space Models for Top- N Recommendation  (KDD-2018 ) [论文作者]-Evangelia Christakopoulou (University of Minnesota),George Karypis (University of Minnesota) [论文链接]Paper(9-pages // Double column) [摘要] 用户的行为是由他们对购买.查看的有潜在兴趣的商品的各个方面的偏好所驱动的

基于位置信息的聚类算法介绍及模型选择

百度百科 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类.由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异."物以类聚,人以群分",在自然科学和社会科学中,存在着大量的分类问题.聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法.聚类分析起源于分类学,但是聚类不等于分类.聚类与分类的不同在于,聚类所要求划分的类是未知的. 分类和聚类算法一直以来都是数据挖掘,机器学习领域的热门课题,因此产生了众多的

ISP模块之色彩增强算法--HSV空间Saturation通道调整 .

色彩增强不同于彩色图像增强,图像增强的一般处理方式为直方图均衡化等,目的是为了增强图像局部以及整体对比度.而色彩增强的目的是为了使的原有的不饱和的色彩信息变得饱和.丰富起来.对应于Photoshop里面的“色相/饱和度”调节选项里面对饱和度的操作.色彩增强的过程,并不改变原有彩色图像的颜色以及亮度信息. 在我的色彩增强算法模块里面,始终只针对色彩饱和度(Saturation)信息做研究,调整.这样的话,那就不得不介绍HSV颜色空间了,H代表Hue(色彩),S代表Saturation(饱和度),V

肤色空间模型

肤色被证明是一种有效的且鲁棒的人脸检测.定位.跟踪依据.同时皮肤颜色检测也能应用在图像内容过滤.内容感知视频压缩.图像色彩平衡应用等方面. 基于特征的人脸检测方法是用皮肤颜色作为检测依据已经非常实用化.颜色处理允许快速处理且对人脸模式的几何变换非常鲁棒.经验表明人脸皮肤具有特征颜色(很容易被人辨识).使用颜色作为人脸的特征,需要克服三个主要问题:1.选择哪种颜色空间:2.皮肤颜色分布如何模型化;3.如何对人脸颜色分割结果进行处理 - 1.颜色空间介绍: 1.1.RGB空间: RGB空间源于显像管

算法:HMM模型+维特比算法详解

一.HMM模型+维特比算法实例 1.问题描述 假设连续观察3天的海藻湿度为(Dry,Damp,Soggy),求这三天最可能的天气情况. 2.已知信息 ①天气只有三类(Sunny,Cloudy,Rainy),海藻湿度有四类{Dry,Dryish, Damp,Soggy },而且海藻湿度和天气有一定的关系. ②隐藏的状态:Sunny, Cloudy, Rainy; ③观察状态序列:{Dry, Damp, Soggy} ④初始状态序列: Sunny Cloudy Rainy 0.63 0.17 0.2

c语言学习之基础知识点介绍(十):内存空间模型、地址解释及指针变量

一.内存 /* 内存: 存在内存里的. 内存分了N多个小空间,每个小空间1个字节 每个小空间有它自己的地址.每个地址之间差1 int类型占用4个字节,等于占了4个空间(有4个地址),不需要记住4个地址,而记住首地址就行了(因为首地址相当于入口或者生活中的门) 指针: 指针就是地址,地址就是指针. 地址:内存的地址 内存中的地址: 其实也是从1开始编号,然后一直自增 1M内存,1024个地址 0x7fff5fbff7cc:这叫16进制 十进制:逢10进1 有:0 1 2 3 4 5 6 7 8 9

机器学习算法整理(四)集成算法—随机森林模型

随机:数据采样随机,特征选择随机 (数据采样,有放回) 原文地址:https://www.cnblogs.com/douzujun/p/8386930.html

概率检索模型回顾

布尔模型和向量空间模型可以给出文档内容和查询是否相关的非确定性的推测,而概率论的方法可以给这种推测提供一个基本的理论. 概率论基础知识 事件A发生的概率为P(A),它满足0≤P(A)≤1,对于两个事件A.B,它们的联合事件发生的可能性通过联合概率P(A,B)描述,条件概率P(A|B)表示在事件B发生的条件下A发生的概率.联合概率和条件概率的关系可以通过链式法则(Chain Rule)来体现: P(AB)=P(A∩B)=P(A|B)P(B)=P(B|A)P(A) 事件A 的补集的概率记为P(\ba