信息检索 3 检索模型

检索模型分为两种,一种是boolean model 一种是ranked retrieval

一 boolean查找:

1 binary decision:is document relevant or not?

文档只有相关和不相关两种,并没有排行

2 presence of term is necessary and sufficient for match

我们只需要记录每个文档有那些词汇就ok了

3 我们查询时的操作可以有 and和or都是集合操作

二 ranked algorithm:

1 frequency of document terms

文档中单词出现的频率,比如 文档1 出现love出现了10次,文档2 出现love出现了5次,

那么当搜索词为love时,文档1应该排在文档2之前

2 not all search terms necessarily present in document

这点主要是和boolean来分别。比如你要搜索love girl 那么在boolean search中文档必须既出现love和girl才会被我们检索到。而这一点ranked search不同,即使文档只有love没有girl也会被搜索到,只是排名会略低而已。

3 Incarnations:

1)vector space model

2)probabilistic model

3)web search engines

basis:

bag of words = like a set but also records a count for each element

boolean model:

搜索:

1 具体的搜索关键词

2 boolean operators(and or not but xor) note: xor = exlusive or

文档:

overall document collection forms maximal document set

优缺点:

文档:需要很高的专业知识去分类

用户:1 用户不会写boolean queries

2  用户想要有相关性的排名----这也是为什么boolean model不适合web search的原因

vector space model:

文档:

1 文档被表述为 bag of words

2 文档是 high-dimensional vector space

1 每个词汇都是一个方向

2 词汇的频率或者频率的变量是向量的值

查询:

queries 也被表示为类似的向量(for terms that exist in index)

具体方法:

1 选择那些与查询有最高相关性的文档

2 document-query 相似度是排名的准则

3 搜索返回的文档数量变得没有boolean model那么重要,用户从上往下查看直到满意为止

Score system:

1 distance

问题 freqency overweighted 比如 冠词 a不是很重要,但是出现得很多也会使文件排名降低

2 cos

vector-space model采用得就是这种方法

通过这篇文章我们解决了boolean model和怎么测算向量之间得相似度问题。

下一篇文章将会重点讲述怎么具体得去操纵term。

时间: 2024-10-10 17:10:01

信息检索 3 检索模型的相关文章

搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述 搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度.实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况.这里我们主要总结网页内容和用户查询相关的内容. 判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型.检索模型是搜索引擎的理论基础,为量化相关性提供了一种数学模型,是对查询词和文档之间进行相似度计算的框架和方法.其本质就是相关度建模.如图所示,检索模型所在搜索引擎系统架构位置: 当然检

【搜索引擎(三)】检索模型

检索模型的目的 现实中搜索引擎的检索策略复杂多变,但是分析起来,核心的目的就两个,为了: 1. 越相关的结果越靠前; 2. 查询的结果是完整的. 经典检索模型 经典信息检索模型有三类: 1.布尔模型 2.向量模型 3.概率 不看内部, 查询的模型是:查询->查询模型->返回结果,一个查询是一组关键字,返回结果是一组文档 1.布尔模型: 返回包含一个查询中的n个关键字的文档, 即包含w1,w2,w3的文档的交集 2.向量模型: 考虑到布尔匹配的局限性太强,而提出的一个部分匹配的方法.通过对查询和

这就是搜索引擎--读书笔记八--检索模型与搜索排序

检索模型与搜索排序 前言 搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏以及用户接受与否.尽管搜索引擎在实际结果排序时融合了上百种排序因子,但最重要的两个因素还是用户查询和网页的内容相关性及网页链接情况.那么,我们得到用户搜索词之后,如何从内容相关性的角度上对网页进行排序输出呢? 判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型.搜索引擎的核心是判断哪些文档是和用户需求相关的,并按照相关程度排序输出,所以相关程度计算是将用户查询和文档进行匹配的过程,而

概率检索模型回顾

布尔模型和向量空间模型可以给出文档内容和查询是否相关的非确定性的推测,而概率论的方法可以给这种推测提供一个基本的理论. 概率论基础知识 事件A发生的概率为P(A),它满足0≤P(A)≤1,对于两个事件A.B,它们的联合事件发生的可能性通过联合概率P(A,B)描述,条件概率P(A|B)表示在事件B发生的条件下A发生的概率.联合概率和条件概率的关系可以通过链式法则(Chain Rule)来体现: P(AB)=P(A∩B)=P(A|B)P(B)=P(B|A)P(A) 事件A 的补集的概率记为P(\ba

现代信息检索 -- 空间向量模型

王老师的现代信息索引讲的很精彩,但是三节联排的课程总让我的注意力没办法太集中.在这里记录一下知识,也但是回顾了. 支持布尔查询的索引办法,在给定一个查询的情况下,可能匹配到的结果非常的多,那么对匹配结果(文档)进行评分或者相关权重分析,就显得尤为重要. 一. 参数化索引和域索引 通常的文档都有额外的结构(title,author,content,etc.) ,这些也称为元数据.对于这些检索系统可以进行参数化索引,从而完成参数化搜索,类似 “查询由William Shakespeare 于 160

[IR课程笔记]概率检索模型

几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j 1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序. 贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档: 基于检索代价的概率排序原理: crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D) 如何计算概率 文档d可以表示为向量(d1

原创:史上对BM25模型最全面最深刻的解读以及lucene排序深入讲解(佟学强)

垂直搜索结果的优化包括对搜索结果的控制和排序优化两方面,其中排序又是重中之重.本文将全面深入探讨垂直搜索的排序模型的演化过程,最后推导出BM25模型的排序.然后将演示如何修改lucene的排序源代码,下一篇将深入解读目前比较火热的机器学习排序在垂直搜索中的应用.文章的结构如下: 一.VSM模型简单介绍: 二.lucene默认的评分公式介绍: 三.概率语言模型中的二元独立模型BIM介绍: 四.BM25介绍: 五.lucene中的edismax解析器介绍以及评分公式源代码介绍: 六.修改排序源代码:

【NLP】蓦然回首:谈谈学习模型的评估系列文章(三)

基于NLP角度的模型评价方法 作者:白宁超 2016年7月19日19:04:51 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量.于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间.本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用.本文布局如下:第一章采用统计学习角度介绍什么是学习模型以及如何选择,因为现今的自然语言处理方面大都采用概率统计完成的,事实证明这也比规则的方法好.第二章采用基

文本分析与检索

主要内容: 1.文本表示与特征提取: 2.隐语义分析LSA和Latent Dirichlet Allocation(LDA) 3.检索模型:Boolean模型.向量模型.概率模型 1.文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息: 利用分词工具:极易中文分词:je-analysis-1.5.3,庖丁分词:paoding-analyzer.jar, IKAnalyzer3.0, imdict-chinese-analyzer, ictclas4j 目前通常采用向量空间模型来描述文