主题模型之概率潜在语义分析（Probabilistic Latent Semantic Analysis）

上一篇总结了潜在语义分析（Latent Semantic Analysis, LSA），LSA主要使用了线性代数中奇异值分解的方法，但是并没有严格的概率推导，由于文本文档的维度往往很高，如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高，使用概率推导可以使用一些优化迭代算法来求解。

Thomas Hofmann 于1998年根据似然原理定义了生成模型并由此提出了概率潜在语义分析模型（Probabilistic Latent Semantic Analysis），简称PLSA。

PLSA属于概率图模型中的生成模型，相关的模型还有语言模型中的一元模型（Unigram Model）、混合一元模型（Mixture of Unigrams Model）等。

首先对文集进行设定。假设文集的词典中共有V个词，词典向量为，假设词是独立同分布的（一袋子词），即，一篇文章可以表示为，其中表示第i个词在当前文档中出现的次数。

一元模型中假设每篇文档的词都独立遵从于多项式分布，即假设词典中第i个词在文档中出现的次数遵从多项式分布，即。打个比方来说假设我们有一个V面的骰子，骰子第i面向上的概率为，每掷一次骰子得到一个词，掷M次后便得到一篇由M个词组成的文档（文档的词之间是独立同分布的）。根据多项式分布可以知道文档的概率为

下图中图（a）便是一元语言模型的概率图模型，而图（b）中是PLSA的概率图模型。

PLSA模型中与一元模型中假设词遵从多项式分布不同，PLSA模型中引入了潜层变量作为主题变量，即假设当前文集由K个主题构成。设为文集中的第m篇文档，表示第t个主题，为第i个词。为所有文档的概率分布，是文档的概率，为文档对应的主题的分布，为主题对应的词的分布。

PLSA模型的生成过程如下：

根据概率选择一篇文档
根据概率选择一个潜性主题，并且
根据概率生成一个词，并且

当然每个模型都对文集有一定的假设，PLSA做了如下的假设：

并元的每一对共现是独立的
当已知潜性变量的时候，变量和变量是条件独立的。

PLSA最初是根据视面模型（Aspect Model）提出的，假设1与一元模型中的“一袋子词”的假设相似，假设2与PLSA定义的图模型的生成关系有关，PLSA的图模型类似于X->Z->Y这种模式，在贝叶斯网络中被称为间接因果影响（“Indirect Causal Effect”）。举个例子来说，X表示你口袋里有没有2块钱，Z表示你能不能买一只笔，Y表示你能不能参加考试。假如不知道你能不能买一支笔（Z），那么你口袋里有没有2块钱（X）将影响到你能不能参加考试（Y）。但是假如你已经知道你是否可以买一只笔（Z），则你口袋里有没有2块钱（X）就影响不到你能不能参加考试了（Y）。即已知变量Z，变量X和Y是独立的。

PLSA最终是要求得每个并元对应主题的概率，即。下面我们来推导公式。PLSA使用极大似然估计（MLE）。