作者:Peter D. Turney、Patrick Pantel
翻译:华南师范大学-吴玺煜
2.语义向量空间模型
统计语义假说(statistical semantics hypothesis)是我们这篇论文里讨论的形形色色的VSMs的统一主题:人类单词用法的统计模式可以被用来指示人类的意思(statistical patterns of human word usage can be used to figure out what people mean)。这一个一般性假说是很多特定假说的基础,比如词袋模型假说(bag of words hypothesis)、分布假说(distributional
hypothesis)、扩展的分布假说(extended distributional hypothesis)、和潜在关系假设(latent relation hypothesis)。这些在下面进行讨论。
2.1文档相似性:项-文档矩阵
在本文,我们用下列符号约定:黑体大写字母表示矩阵:A。黑体小写字母表示向量:b。而标量用小写意大利体表示,c。
如果我们有一个文档的大集合,也就是同时拥有很多文档向量,因此很容易将这堆向量组织成矩阵。矩阵的行向量当做项(term),(通常来说,一个项是一个单词,但我们也考虑别的可能性(比如词对-译者注)),列向量当做文档(比如网页)。这种类型的矩阵叫做项-文档矩阵。
在数学中,一个袋(bag)(又叫做多重集(multiset))很像一个集合,不过它允许重复。举个例子,{a,a,b,c,c,c}是一个包含a,b和c的袋。在袋和结合中,顺序是无关紧要的;袋{a,a,b,c,c,c}和{c,a,c,b,a,c}是相等的。通过规定x中第一个元素是袋中a的数量,第二个元素是袋中b的数量,第三个元素是袋中c的数量,我们把袋{a,a,b,c,c,c}表征为向量x=<2,1,3>。一个袋的集合又被表征成一个矩阵X,其中每一列X:j当做一个袋,每一行Xi:当做一个独一的数字,元素xij是第j-个袋的关于i的频率(frequency)。
在一个项-文档矩阵里,一个文档向量表征一个词袋所相关的文档。在信息检索中,词袋模型假说(bag of words hypothesis)是这样的一个假说:通过把查询和文档都表示成词袋,我们可以计算一个文档和查询的切合程度。词袋模型假说(bag of words hypothesis)是VSM在信息检索里应用的基础(Salton et al., 1975)。这个假说相信一个项-文档中的列向量(在一定程度上)可以捕捉到相关文档意义的某个方面;文档讲的是什么。
令X是一个项-文档矩阵。假定我们的文档集包括了n个文档和m个不重复的项。矩阵X因此有m行(每一行是词典里的每一项)和n列(每一列代表一篇文档)。令wi是词典里的第i项,dj是文档集中的第j篇文档。X里的第i行是行向量xi:,第j列是列向量x:j。行向量xi:包含了n个元素,分别对应着每一个文档;列向量x:j包括了m个元素,分别对应着每一项。假定X是一个简单的频率矩阵。X中的元素xij是第i个项wi在第j个文档dj里的频率。
总之,X中大多数的元素都是0(矩阵是稀疏),因为很多文档只用了整个词典里一小部分。如果我们随机挑选一个项wi和一个文档dj,很可能wi不出现dj里,因此xij等于0。
xi:的数字模式(pattern of numbers)是第i项wi的签名(signature);类似的,x:j是第j个文档dj的签名。也就是这些数字模式告诉我们,在一定程度上,项和文档讲的是什么。
向量x:j可能是一个文档dj的相当粗糙的表示。告诉了我们词汇在文档里的频率,但损失了词汇的序列顺序(sequential order)。向量不去尝试捕捉词组、句子、段落和文档的章节(phrases, sentences, paragraphs, and chapters of the document)的结构。当然,尽管很粗糙,搜索引擎工作得非常好;向量看起来已经捕捉到语义重要的部分。
萨尔顿的VSM(1975)可以说是第一次实际的、有用的从词汇用法里抽取语义信息的算法。对项-文档矩阵的一个直觉的理由是文档的话题(topic)从概率上影响了作者写文档的时候对词汇的选择(这个理由很类似于Topic model-译者注)。如果两篇文档有相似的话题,然后与此相关的两个列向量倾向于有相似的数字模式。