从频率到意义:语义向量空间模型(4)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney、Patrick Pantel

翻译:华南师范大学-吴玺煜

2.语义向量空间模型

统计语义假说(statistical semantics hypothesis)是我们这篇论文里讨论的形形色色的VSMs的统一主题:人类单词用法的统计模式可以被用来指示人类的意思(statistical patterns of human word usage can be used to figure out what people mean)。这一个一般性假说是很多特定假说的基础,比如词袋模型假说(bag of words hypothesis)、分布假说(distributional
hypothesis)、扩展的分布假说(extended distributional hypothesis)、和潜在关系假设(latent relation hypothesis)。这些在下面进行讨论。

2.1文档相似性:项-文档矩阵

在本文,我们用下列符号约定:黑体大写字母表示矩阵:A。黑体小写字母表示向量:b。而标量用小写意大利体表示,c

如果我们有一个文档的大集合,也就是同时拥有很多文档向量,因此很容易将这堆向量组织成矩阵。矩阵的行向量当做项(term),(通常来说,一个项是一个单词,但我们也考虑别的可能性(比如词对-译者注)),列向量当做文档(比如网页)。这种类型的矩阵叫做项-文档矩阵。

在数学中,一个袋(bag)(又叫做多重集(multiset))很像一个集合,不过它允许重复。举个例子,{a,a,b,c,c,c}是一个包含a,b和c的袋。在袋和结合中,顺序是无关紧要的;袋{a,a,b,c,c,c}和{c,a,c,b,a,c}是相等的。通过规定x中第一个元素是袋中a的数量,第二个元素是袋中b的数量,第三个元素是袋中c的数量,我们把袋{a,a,b,c,c,c}表征为向量x=<2,1,3>。一个袋的集合又被表征成一个矩阵X,其中每一列X:j当做一个袋,每一行Xi:当做一个独一的数字,元素xij是第j-个袋的关于i的频率(frequency)。

在一个项-文档矩阵里,一个文档向量表征一个词袋所相关的文档。在信息检索中,词袋模型假说(bag of words hypothesis)是这样的一个假说:通过把查询和文档都表示成词袋,我们可以计算一个文档和查询的切合程度。词袋模型假说(bag of words hypothesis)是VSM在信息检索里应用的基础(Salton et al., 1975)。这个假说相信一个项-文档中的列向量(在一定程度上)可以捕捉到相关文档意义的某个方面;文档讲的是什么。

令X是一个项-文档矩阵。假定我们的文档集包括了n个文档和m个不重复的项。矩阵X因此有m行(每一行是词典里的每一项)和n列(每一列代表一篇文档)。令wi是词典里的第i项,dj是文档集中的第j篇文档。X里的第i行是行向量xi:,第j列是列向量x:j。行向量xi:包含了n个元素,分别对应着每一个文档;列向量x:j包括了m个元素,分别对应着每一项。假定X是一个简单的频率矩阵。X中的元素xij是第i个项wi在第j个文档dj里的频率。

总之,X中大多数的元素都是0(矩阵是稀疏),因为很多文档只用了整个词典里一小部分。如果我们随机挑选一个项wi和一个文档dj,很可能wi不出现dj里,因此xij等于0。

xi:的数字模式(pattern of numbers)是第i项wi的签名(signature);类似的,x:j是第j个文档dj的签名。也就是这些数字模式告诉我们,在一定程度上,项和文档讲的是什么。

向量x:j可能是一个文档dj的相当粗糙的表示。告诉了我们词汇在文档里的频率,但损失了词汇的序列顺序(sequential order)。向量不去尝试捕捉词组、句子、段落和文档的章节(phrases, sentences, paragraphs, and chapters of the document)的结构。当然,尽管很粗糙,搜索引擎工作得非常好;向量看起来已经捕捉到语义重要的部分。

萨尔顿的VSM(1975)可以说是第一次实际的、有用的从词汇用法里抽取语义信息的算法。对项-文档矩阵的一个直觉的理由是文档的话题(topic)从概率上影响了作者写文档的时候对词汇的选择(这个理由很类似于Topic model-译者注)。如果两篇文档有相似的话题,然后与此相关的两个列向量倾向于有相似的数字模式。

时间: 2024-11-05 11:55:01

从频率到意义:语义向量空间模型(4)(From Frequency to Meaning: Vector Space Models of Semantics)的相关文章

向量空间模型实现文档查询(Vector space model to realise document query)

xml中文档(query)的结构: <topic> <number>CIRB010TopicZH006</number> <title>科索沃難民潮</title> <question> 查詢科索沃戰爭中的難民潮情況,以及國際間對其採取的援助. </question> <narrative> 相關文件內容包括科省難民湧入的地點.人數,受安置的狀況,難民潮引發的問題,參與救援之國家與國際組織,其援助策略與行動內容

向量空间模型(VSM)

向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型.它应用于信息过滤.信息检索.索引以及关联规则.SMART是第一个使用这个模型的信息检索系统. 文档和查询都用向量来表示. 每一维都相当于是一个独立的词组.如果这个术语出现在了文档中,那它在向量中的值就非零.已经有很多不同的方法来计算这些值,这些值叫做(词组)权重.其中一种广为人知的算法就是tf_idf权重(见下面的例子). 我们是根据应用来定义词组的.典型的词组就是一个单一的词.关键词.或者较长

Solr相似度名词:VSM(Vector Space Model)向量空间模型

最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向量空间模型,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这个样子的. 1.看一下TF/IDF 我们先来看下一个叫TF/IDF的概念,一般它用来作为一个搜索关键字在文档或整个查询词组的权重的计算方式.前几天看了吴军老师的数学之美系列文章,这个TF/IDF可以追

Jackcard类似度和余弦类似度(向量空间模型)的java实现

版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言. 总结Jackcard类似度和余弦类似度. 一.集合的Jackcard类似度 1.1Jackcard类似度 Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数. 数学公式描写叙述: J(A,B)=|A∩B||A∪B| 这个看似简单的算法有非常大的用处.比方: 抄袭文档 高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对

改进后的向量空间模型(VSM)

我们采用更加形式化的定义,并采用稍大一些的例子来展示如何使用基于数据集频率的权重.对应于一个给定的词项,其权重使用IDF(逆文档频率)来计算. 为了给每篇文档建立一个对应的向量,可以考虑如下定义.   对于每一篇文档向量,都有n个分量,并且对于整个文档集中每个不同的词项,都包含一个词条.向量中的每个分量为在整个文档集中计算出来的每个词项的权重.在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值.词项在一篇文档中出现的频率越高,则权重越大:相反,

Jackcard相似度和余弦相似度(向量空间模型)的java实现

版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言. 总结Jackcard相似度和余弦相似度. 一.集合的Jackcard相似度 1.1Jackcard相似度 Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数. 数学公式描述: J(A,B)=|A∩B||A∪B| 这个看似简单的算法有很大的用处,比如: 抄袭文档 高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对词语或

人工智能必须要知道的语义分割模型:DeepLabv3+

图像分割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容分割成不同的块.相比图像分类和检测,分割是一项更精细的工作,因为需要对每个像素点分类,如下图的街景分割,由于对每个像素点都分类,物体的轮廓是精准勾勒的,而不是像检测那样给出边界框. 图像分割可以分为两类:语义分割(Semantic Segmentation)和实例分割(Instance Segmentation),其区别如图所示. 可以看到语义分割只是简单地对图像中各个像素点分类,但是实例分割更进一步,需要区分开不同

向量空间模型(Vector Space Model)

搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏.虽然搜索引擎在实际结果排序时考虑了上百个相关因子,但最重要的因素还是用户查询与网页内容的相关性.(ps:百度最臭名朝著的“竞价排名”策略,就是在搜索结果排序时,把广告客户给钱最多的排在前列,而不是从内容质量考虑,从而严重影响了用户体验).这里要讲的就是:给定用户搜索词,如何从内容相关性的角度对网页进行排序.判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型,常见的检索模型有:布尔模型.向量空间模型.概率模型

分类(二):基于向量空间模型的文本分类

利用向量空间模型进行文本分类的思路主要基于邻近假设(contiguity hypothesis). 邻近假设: 同一类的文档会构成一个邻近区域,而不同类的邻近区域之间是互不重叠的. 1.Rocchio方法 Rocchio方法时基于质心或原型将整个向量空间划分成多个区域,每个质心或原型代表一类,利用质心来定义划分边界. 2.KNN,k近邻,k nearest neighbor KNN通过局部信息来确定类别边界,将与测试文档最近的k篇文档所属的主类赋给该文档.