LDA(latent dirichlet allocation)的应用

http://www.52ml.net/1917.html

主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文本表示的维度。这其实也很deep learning中的对特征的抽象有点相似,通过一些聚类等的思想,将一些细粒度的特征组合到一个新的空间上去,例如主题空间。

而且GibbsSampling的LDA实现也相对容易,可以参考一些代码。

最近看微博上 志飞Google 发起的帖子,大多业界用lda或者plsa的都表态了。腾讯的rickjin等。摘录一些,大家以后遇到类似的问题可以尝试下topic model。

===

rickjin :PLSA 和 LDA 在广告系统中做文本语义相似度的计算还是可以的,至少能保证弱语义相关性。另外,我们把 LDA inference 出来的 topic 用在了文本分类器中做feature, 可以显著的提升分类器的 precission/recall

机器学习那些事儿 :在计算搜索query相似度时直接采用LSA了,因为SVD的效率在工业界已经很成熟。//@rickjin :回复 @志飞Google :哦, 没有说清楚, 我指的是弱语义关联,比如 LDA 可以有效的用于计算 "柯南" 和 "火影忍者" 这两个 query 的相似度

机器学习那些事儿 :打个比方,有1000万个样本,只用learning的100个topic做feature,结果可想而知// @余凯_西二旗民工 :只用topic分类,效果不好,尤其是在训练样本多的时候。// @老师木 : 只用topic作文本分类,效果怎样。

李沐mu :有公司用lda做cookie做user group,然后当feature用,效果挺好/ @洪亮劼 : 目前正在做LDA在大规模user profiling + personalization的工作。

张栋_机器学习 :PLSA (dirichlet prior = zero 的 LDA)还是很实用的,我们用它解过几个工业界的问题

袁全V :我们在广告中在用lda做cookie-url grouping, 最近在尝试用来发现长尾语义

苏劲松XMUNLP :baidu好像把plsa用得挺好的,lda就不知道了。

时间: 2024-08-08 05:11:57

LDA(latent dirichlet allocation)的应用的相关文章

LDA(latent dirichlet allocation)

1.LDA介绍 LDA假设生成一份文档的步骤如下: 模型表示: 单词w:词典的长度为v,则单词为长度为v的,只有一个分量是1,其他分量为0的向量 $(0,0,...,0,1,0,...,0,0)$ 文档W:  单词的组合,$(w_1,w_2,...,w_N)$,可以看成是 $v*N$ (词典长度*单词个数)的矩阵 语料库D:文档的集合,${W_1,W_2,...W_M}$ 主题:认为主题个数固定已知,为k个 dirichlet参数α: 长度为k的向量,每个分量都大于0 文档的主题分布θ:  由d

Latent Dirichlet Allocation 文本分类主题模型

文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征.往往一个数据集就会有上万个特征:有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小:2.统计特征:包括Term frequency(TF) , Inverse document frequency(IDF), 以及合并起来的TF-IDF.这种语言模型主要是用词汇的统计特征来作为特征集,每个特征都能够说得出物理意义

代写Python Latent Dirichlet Allocation

In thisassignment we will submit extracted topics from 5 different Twitter accounts ofyour choice. This word document will contain the account names, extractedtopics, probability and 10 most common terms for each topic. Please includeyour IPython Not

Latent Dirichlet allocation学习笔记

LDA是一个关于语料的生成概率模型,基本思想是文档可以表达为隐含主题的随机混合,每个主题刻画为关于词语的分布. LDA假设在语料D中生成一篇文章w的过程如下: 1. 根据泊松分布选在文章长度N 2.     选择主题分布 3.   对于每一个词Wn (a) 根据多项式分布选择一个主题 (b)  根据多项式条件概率分布选择Wn 一些基本模型的简单假设: (1)主题个数k是预先设定的: (2)主题和词的概率分布矩阵式一个k*V的矩阵, (3)文章长度N与其它变量独立 K维的Dirichlet随机变量

Latent Dirichlet Allocation

主题模型 LDA是一个主题模型,关于主题模型的解释有个很通俗的例子: 第一个是:"乔布斯离我们而去了." 第二个是:"苹果价格会不会降?" 我们一眼就可以看出这两句是有关联的,第一句里面有了"乔布斯",我们会很自然的把"苹果"理解为苹果公司的产品,它们属于了同一个主题:苹果公司. 而像我之前那种计算关联度的时候,即文档之间重复的词语越多越可能相似,是无法达到这个效果的.文档之间重复的词语越多越可能相似,这一点在实际中并不尽然.

三言两语教你理解 Latent Dirichlet Allocation Model

LDA-Latent Dirichlet Allocation 学习笔记

以下内容主要基于<Latent Dirichlet Allocation>,JMLR-2003一文,另加入了一些自己的理解,刚开始了解,有不对的还请各位指正. LDA-Latent Dirichlet Allocation JMLR-2003 摘要:本文讨论的LDA是对于离散数据集,如文本集,的一种生成式概率模型.LDA是一个三层的贝叶斯分层模型,将数据集中每一项,如每个文本,建模为某些未知的topic组成的集合的混合.每个topic又建模为某种混合概率分布.在文本建模中,话题的概率就提供了每

关于Latent Diricht Allocation

今天,也没出去,晚上宿舍没有人,自己思考了下人生,毕设还是大事,觉得现在有必要把LDA从前往后彻彻底底的读一遍了,因为现在的感觉就是什么都知道一点皮毛,但是理解的都不深,LDA好像(恩,相当不好)现在理解的不是很好,涉及的内容挺多,细分的话有: 1)参数估计 MLE MAP 2)Bayes Estimation 3)随机采样 4)各种基于 MCMC 的采样方法 :Gibbs LDA Sparse LDA ,Alias LDA,WarpLDA 4)分布式实现 5)应用 放在新闻推荐上? 这个具体看

Latent semantic analysis note(LSA)

1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法.该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系:而不同的是,LSA将词和文档映射