向量空间模型(VSM)

向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索索引以及关联规则。SMART是第一个使用这个模型的信息检索系统。

文档和查询都用向量来表示。

每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值叫做(词组)权重。其中一种广为人知的算法就是tf_idf权重(见下面的例子)。 我们是根据应用来定义词组的。典型的词组就是一个单一的词、关键词、或者较长的短语。如果字被选为词组,那么向量的维数就是出现在词汇表中不同字的个数。
向量运算能通过查询来比较各文档。

通过文档相似度理论的假设,比较每个文档向量和原始查询向量(两个向量的类型是相同的)之间的角度偏差,使得在文档中搜索关键词的关联规则是能够计算的。 实际上,计算向量之间夹角的余弦比直接计算夹角本身要简单。

其中  是文档向量(即右图中的d2)和查询向量(图中的q)的点乘。  是向量d2 的模,
而  是向量q的模. 向量的模通过下面的公式来计算:

由于这个模型所考虑的所有向量都是严格非负的,如果其余弦值为零,则表示查询向量和文档向量是正交的,即不符合(换句话说,就是该检索词在文档中没有找到)。如果要了解详细的信息可以查看余弦相似性

范例: tf-idf 权重

Salton, Wong 和 Yang  提出的传统向量空间模型,一个词组在文件向量中权重就是局部参数和全局参数的乘积,这就是著名的tf-idf模型(词频_逆向文件频率)。文档的权重向量d就是 ,其中

  •  是词组t在文档d中出现的频率(一个局部参数)
  •  是逆向文件频率(一个全局参数)。 是文件集中的文件总数;  是含有词组t的文件数。

文件dj 和查询q之间的余弦相似度通过一下公式来计算:

在简单的词组计算模型中,词组的权重不包含全局参数,而是单纯的计算词组出现的次数: 

优点

相对于标准的布尔数学模型,向量空间模型具有如下优点:

  1. 基于线性代数的简单模型
  2. 词组的权重不是二元的
  3. 允许计算文档和查询之间的连续相似程度
  4. 允许其根据可能的相关性来进行文件排序
  5. 允许局部匹配

局限

向量空间模型有如下局限:

  1. 不适用于较长的文件,因为它的相似值不理想(过小的内积和过高的维数)。
  2. 检索词组必须与文件中出现的词组精确匹配,不完整词组(子字串会导致“假阳性”匹配)。
  3. 语义敏感度不佳;具有相同的语境但使用不同的词组的文件不能被关联起来,导致“假阴性匹配”。
  4. 词组在文档中出现的顺序在向量中间中无法表示。
  5. 假定词组在统计上是独立的。
  6. 权重是直观上获得的而不够正式。

然而,这些局限中的多数能够通过多种多样的方法集成来解决,包括数学上的技术,比如奇异值分解和词汇数据库(比如wordnet)

基于模型的以及扩展的向量空间模型

基于模型的和基于扩展的向量空间模型包括:

  • 广义的向量空间模型
  • (增强的)基于主题的向量空间模型
  • 潜在的语义分析
  • 潜在的语义索引
  • DSIR模型
  • 词组辨识
  • Rocchio分类

向量空间模型(VSM)

时间: 2024-11-03 07:22:03

向量空间模型(VSM)的相关文章

Solr相似度名词:VSM(Vector Space Model)向量空间模型

最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向量空间模型,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这个样子的. 1.看一下TF/IDF 我们先来看下一个叫TF/IDF的概念,一般它用来作为一个搜索关键字在文档或整个查询词组的权重的计算方式.前几天看了吴军老师的数学之美系列文章,这个TF/IDF可以追

向量空间模型(VSM)计算文本相似度

1.定义 向量空间模型是一个把文本表示为标引项(Index Term)向量的代数模型,原型系统SMART*. 向量空间模型的定义很简单,文档d,查询q都用向量来表示. 查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点.向量之间通过距离计算得到查询和每个文档的相似度. 我们在向量空间模型中假设term是相互独立互不影响的. 2.模型构建 VSM向量空间模型构建的关键在于三点: 1.标引项term的选择 2.权重计算(Term Weighting):即计算每篇文档中每个ter

改进后的向量空间模型(VSM)

我们采用更加形式化的定义,并采用稍大一些的例子来展示如何使用基于数据集频率的权重.对应于一个给定的词项,其权重使用IDF(逆文档频率)来计算. 为了给每篇文档建立一个对应的向量,可以考虑如下定义.   对于每一篇文档向量,都有n个分量,并且对于整个文档集中每个不同的词项,都包含一个词条.向量中的每个分量为在整个文档集中计算出来的每个词项的权重.在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值.词项在一篇文档中出现的频率越高,则权重越大:相反,

Jackcard类似度和余弦类似度(向量空间模型)的java实现

版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言. 总结Jackcard类似度和余弦类似度. 一.集合的Jackcard类似度 1.1Jackcard类似度 Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数. 数学公式描写叙述: J(A,B)=|A∩B||A∪B| 这个看似简单的算法有非常大的用处.比方: 抄袭文档 高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对

Jackcard相似度和余弦相似度(向量空间模型)的java实现

版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言. 总结Jackcard相似度和余弦相似度. 一.集合的Jackcard相似度 1.1Jackcard相似度 Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数. 数学公式描述: J(A,B)=|A∩B||A∪B| 这个看似简单的算法有很大的用处,比如: 抄袭文档 高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对词语或

从频率到意义:语义向量空间模型(4)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney.Patrick Pantel 翻译:华南师范大学-吴玺煜 2.语义向量空间模型 统计语义假说(statistical semantics hypothesis)是我们这篇论文里讨论的形形色色的VSMs的统一主题:人类单词用法的统计模式可以被用来指示人类的意思(statistical patterns of human word usage can be used to figure out what people mean).这一个一般性假说是很多特定假说的

向量空间模型(Vector Space Model)

搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏.虽然搜索引擎在实际结果排序时考虑了上百个相关因子,但最重要的因素还是用户查询与网页内容的相关性.(ps:百度最臭名朝著的“竞价排名”策略,就是在搜索结果排序时,把广告客户给钱最多的排在前列,而不是从内容质量考虑,从而严重影响了用户体验).这里要讲的就是:给定用户搜索词,如何从内容相关性的角度对网页进行排序.判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型,常见的检索模型有:布尔模型.向量空间模型.概率模型

分类(二):基于向量空间模型的文本分类

利用向量空间模型进行文本分类的思路主要基于邻近假设(contiguity hypothesis). 邻近假设: 同一类的文档会构成一个邻近区域,而不同类的邻近区域之间是互不重叠的. 1.Rocchio方法 Rocchio方法时基于质心或原型将整个向量空间划分成多个区域,每个质心或原型代表一类,利用质心来定义划分边界. 2.KNN,k近邻,k nearest neighbor KNN通过局部信息来确定类别边界,将与测试文档最近的k篇文档所属的主类赋给该文档.

25.TF&IDF算法以及向量空间模型算法

主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定term的doc.must/must not/should(过滤.包含.不包含 .可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据. 二.TF/IDF 这一步就是es为boo