PLSA-概率潜语义分析(二)

PLSA最大化下面函数:

简化后,最大化下面函数:

——————————————————————————————————————————————————————————————————————————

我们用期望最大值化算法(EM),求上述式子的最大值,

初始化:

E步:计算

(固定)。

M步:求下述最大化问题

用Lagrange乘子求最大化问题:

————————————————————————————————————————————————————————————————————————————

,时,

时。

时间: 2024-12-30 00:10:24

PLSA-概率潜语义分析(二)的相关文章

PLSA-概率潜语义分析

,其中 , , 根据贝叶斯公式, 概率潜语义分析,主要步骤; 最大化以下函数,我们用期望最大值化算法, 期望最大值化算法: E步: ,,, M步:最大化以下最大化问题: 求上述的最大化问题,采用拉格朗日乘子法: , -------------------------------------------------- , , , , ,,, -------------------------------------------------- , , , , , ,, ---------------

主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis)

上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解. Thomas Hofmann 于1998年根据似然原理定义了生成模型并由此提出了概率潜在语义分析模型(Probabilistic Latent Semantic Analysis),简称PLSA. PLSA属于概率

LDA主题聚类学习小结

最近学习了LDA Topic聚类算法,里面涉及到许多概率论的知识,需要回过头去学习,这里做个小结,方便记忆,同时也希望能把它讲明白. LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m:然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p:这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm):同样的文档中的所有词也会求出 它对应每个Topic的概率,wi = (wp1,wp2,wp3

1-机器学习目录

1-参数估计与矩阵运算基础 2-凸优化 3- 广义线性回归和对偶优化 4-牛顿.拟牛顿.梯度下降.随机梯度下降(SGD) 5-熵.最大熵模型MaxEnt.改进的迭代尺度法IIS 6-聚类(k-means.层次聚类.谱聚类等) 7-K近邻.决策树.随机森林(random decision forests) 8-Adaboost 9-朴素贝叶斯.与贝叶斯网络 10-支持向量机(最大间隔分类.拉格朗日乘值.对偶问题.损失函数.最优化理论.SMO) 11-EM.混合高斯模型 12-主题模型(概率潜语义分

JGibbLDA、GibbsLDA++问题解决

LDA(Latent Dirichlet Allocation )主题模型是一种用统计进行文本挖掘的方法,它是pLSA(概率潜在语义分析)主题模型基础上加上贝叶斯框架而得到的模型.目前已应用于自然语言处理.计算机视觉.机器学习.信息检索等领域,得到了广泛关注. LDA模型网上有多个开源代码,用的比较多是JGibbLDA(Java实现).GibbsLDA++(C++实现).当我们在Linux平台上运行的时候,可能会遇到一些问题,如果对Java.C++和Linux不太熟悉,就很难解决. 这里我就将我

程序员眼中的统计学(3)】概率计算:把握机会

概率计算:把握机会 作者 白宁超 2015年10月13日23:23:13 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于统计和数

潜在语义分析Latent semantic analysis note(LSA)原理及代码实现

文章参考:http://blog.sina.com.cn/s/blog_62a9902f0101cjl3.html Latent Semantic Analysis (LSA)也被叫做Latent Semantic Indexing(LSI),从字面上的意思理解就是通过分析文档去发现这些文档中潜在的意思和概念.假设每个词仅表示一个概念,并且每个概念仅仅被一个词所描述,LSA将非常简单(从词到概念存在一个简单的映射关系) 不幸的是,这个问题并没有如此简单,因为存在不同的词表示同一个意思(同义词),

NLP —— 图模型(二)条件随机场(Conditional random field,CRF)

本文简单整理了以下内容: (一)马尔可夫随机场(Markov random field,无向图模型)简单回顾 (二)条件随机场(Conditional random field,CRF) 这篇写的非常浅,基于 [1] 和 [5] 梳理.感觉 [1] 的讲解很适合完全不知道什么是CRF的人来入门.如果有需要深入理解CRF的需求的话,还是应该仔细读一下几个英文的tutorial,比如 [4] . (一)马尔可夫随机场简单回顾 概率图模型(Probabilistic graphical model,P

概率主题模型简介 Introduction to Probabilistic Topic Models

此文为David M. Blei所写的<Introduction to Probabilistic Topic Models>的译文,供大家参考. 摘要:概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法.本文首先回顾了这一领域的主要思想,接着调研了当前的研究水平,最后展望某些有所希望的方向.从最简单的主题模型--潜在狄立克雷分配(Latent Dirichlet Allocation,LDA)出发,讨论了其与概率建模的联系,描述了用于主题发现的两种算法.主题模型日新月异,被扩展和