隐含狄利克雷模型

作者:梓义
链接:https://www.zhihu.com/question/20374493/answer/55320581
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

中国高考作文的出题方法有个固定的套路:给你讲一段小故事,然后让你根据这个故事,想想自己受到什么启发,写篇文章。换句话说你的作文重点根本不是这个故事,故事只是你要写的主题的一个素材。同一个素材,各人思考角度不同,可以对应不同的主题。但更重要的是,不同的素材可以对应同样的主题。

比如全国卷的一个题目是“不要给野生动物喂食,否则它会丧失自己的觅食能力”。出题者的意图显然不是让人写一篇关于野生动物喂养的科普文章。

一个角度是把自己想象成野生动物,主题是年轻人应该自己闯荡,不能依赖前人经验的灌输。这不就是百度预测“生命的多彩”中的“奋斗”、“自由”和“青春”吗?而使用同样的主题,只要把文章稍加修改,完全还可以对付上海市的作文题:“你可以选择穿越沙漠的道路和方式,所以你是自由的;你必须穿越这片沙漠,所以你又是不自由的。”

另一个角度则是把自己想象成面对野生动物的人,那么主题就是要尊重自然,保护环境。这不就是百度预测“发展的困惑”中的“自然”、“环境”和“尊敬”吗?同样的主题下把文章稍加修改又可以对付辽宁省的作文题:“可惜漫天繁星没有了,沧海桑田转眼之间啊!当年那些祖先山洞边点燃篝火,看月亮初升天汉灿烂,他们欣赏的也许才是美景。”

现在我们的关键问题来了。到底是主题多呢,还是素材多?答案当然是素材多。素材怎么编都可以,但全体高中生都能想明白和说明白的道理就那么几个 — 具体说来,据百度数据分析发现,只有六个方面而已。只要一个人熟读这六个方面各种可能主题的文章,掌握其写作套路,不管高考出什么素材都能应对自如。

这就正如有句谚语说“如果你手里有一把锤子,你看什么东西都是钉子”。这句谚语本来是贬义的,意思是告诫人们不要把什么东西都往自己掌握的有限理论上套。比如近年来人们学会了进化心理学之后,就不管看到什么社会现象都想用进化心理学解释,以至于我现在一听进化心理学就浑身起鸡皮疙瘩。

可是如果把这个锤子精神用在准备考试上,那是最好不过了 — 只不过你需要掌握的不是一把,而是六把锤子 — 有了这六把锤子就可以对付几乎所有的高考钉子。其实锤子精神还可以用在领导讲话上,任何事情都必须“高举中国特色社会主义伟大旗帜,以邓小平理论、“三个代表”重要思想为指导,深入贯彻落实科学发展观……”这方面目前一共有三把常用锤子,它们总是同时出现。

那么百度发现这些锤子用的是什么技术呢?

主题模型

给你一篇文章,你怎么能看出来这篇文章是说什么的呢?具体说来,你怎么能让机器知道这篇文章是说什么的呢?这个思想叫做“主题模型(topic modeling)”。百度作文预测使用的主题模型技术叫做“隐含狄利克雷分布(Latent Dirichlet allocation,LDA)”。这是一个2003年才被提出的新技术,它的发明人之一正是刚刚加入百度,负责“百度大脑”项目的吴恩达。

LDA的基本思想非常简单。计算机认为文章只不过是一些词汇的集合。而每个主题,也只是一些关键词的集合。计算机没必要“理解”每个主题或者每个词的意思,甚至根本不用管这些词出现的先后顺序。

我们人为地设定一些主题,并且在数据分析的帮助下给每个主题设定好关键词。比如“狗”的主题下的关键词可以包括“骨头”、“汪星人”、“忠诚”、“朋友”等等,如果是最近的研究恐怕还要加上“广西玉林”。这些关键词的设定没必要非常严格,到底哪个词更重要可以交给机器去发现。

这样我们就有了一个主题的集合,每个主题又都是一大堆关键词的集合。同样一个词可以在多个主题中出现,但是在不同主题下出现的概率是不同的。

计算机要做的仅仅是使用一定的数学方法对根据每篇文章中的词汇进行分析。一篇文章拿过来,你要做的就是把事先设定的所有主题一个一个的过一遍,计算这篇文章中的词汇对应每个主题的可能性是多少。计算结果,就是这篇文章说的是每个主题的概率大小。一篇文章也许可以有超过一个主题,这不是问题。关键在于,计算机可以判断一篇文章最有可能说的是什么主题,第二可能说的是什么主题……这就相当于计算机已经“读懂”了这篇文章。

百度只要把海量的作文都用这种方法分析一遍,就得到了各种不同主题的出现总概率。更进一步,再结合年度风云搜索信息和当年的热点新闻信息,就可以判断现在最流行的作文主题是什么了。

LDA有很多应用。只要把“文章”改成“图像”,把“主题”改成“物体”,它就可以用来分析一张图片中都有什么物体,并用于给图像分类。它还可以用来分析音乐的乐句,再结合每首歌的受喜爱程度,就可以用于歌曲推荐。我猜主题模型的方法还可以用于分析新闻报道、电影剧本、小说和游戏情节,这样机器就能比任何文化批评家更早意识到现在流行什么。

时间: 2024-08-27 00:39:12

隐含狄利克雷模型的相关文章

主题模型TopicModel:隐含狄利克雷分布LDA

http://blog.csdn.net/pipisorry/article/details/42649657 主题模型LDA简介 隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出. 同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可.此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它. LDA首先由Blei, David

主题模型——隐含狄利克雷分布总结

摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合 7.与NB,pLSA比较 内容: 1.算法概述: 先贴一段维基百科中关于主题模型的描述,便于大家理解我们接下来要做什么: 主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型. 直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现.比方说,如果一篇文章是在讲狗的,那"狗"和"骨头"等词出现

【RS】利用局部隐含空间模型进行Top-N推荐

[论文标题]Local Latent Space Models for Top- N Recommendation  (KDD-2018 ) [论文作者]-Evangelia Christakopoulou (University of Minnesota),George Karypis (University of Minnesota) [论文链接]Paper(9-pages // Double column) [摘要] 用户的行为是由他们对购买.查看的有潜在兴趣的商品的各个方面的偏好所驱动的

通俗理解LDA主题模型(boss)

0 前言 看完前面几篇简单的文章后,思路还是不清晰了,但是稍微理解了LDA,下面@Hcy开始详细进入boss篇.其中文章可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布.多项分布.beta分布.Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA.LDA(在本文第4 部分阐述) 一个采样:Gibbs采样 本文便按照上述5个步骤来阐述,希望读者看完本文后,能对LDA有个尽量清晰完整的了解.同时,本文基于邹博讲LDA的PPT.rickjin的LDA

文本主题模型--LDA

隐含狄利克雷分布(Latent Dirichlet Allocation ,简称LDA) 贝叶斯模型贝叶斯模型主要涉及"先验分布", "数据(似然)"和"后验分布"三块,在贝叶斯学派中:                   先验分布 + 数据(似然)= 后验分布可以理解为通过在现先验分布的基础上更新后验分布 二项分布$a = a -2$   原文地址:https://www.cnblogs.com/xz824/p/10034134.html

文本主题模型之LDA(一) LDA基础

在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA).注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果大家需要了解这个LDA的信息,参看之前写的线性判别分析LDA原理总结.文本关注于隐含狄利克雷分布对应的LDA. 1. LDA贝叶斯模型 LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开"先验分布","数据(似然)"

常见生成式模型与判别式模型

生成式模型 P(X,Y)对联合概率进行建模,从统计的角度表示数据的分布情况,刻画数据是如何生成的,收敛速度快. • 1. 判别式分析 • 2. 朴素贝叶斯Native Bayes • 3. 混合高斯型Gaussians • 4. K近邻KNN • 5. 隐马尔科夫模型HMM • 6. 贝叶斯网络 • 7. sigmoid 信念网 • 8. 马尔科夫随机场Markov random fields • 9. 深度信念网络DBN • 10. 隐含狄利克雷分布简称LDA(Latent Dirichlet

我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)

1. LDA模型是什么 LDA可以分为以下5个步骤: 一个函数:gamma函数. 四个分布:二项分布.多项分布.beta分布.Dirichlet分布. 一个概念和一个理念:共轭先验和贝叶斯框架. 两个模型:pLSA.LDA. 一个采样:Gibbs采样 关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),本文讲后者. 按照wiki上的介绍,L

从BSP模型到Apache Hama

? 什么是BSP模型 概述 BSP(Bulk Synchronous Parallel,整体同步并行计算模型)是一种并行计算模型,由英国计算机科学家Viliant在上世纪80年代提出.Google发布的一篇论文(<Pregel: A System for Large-Scale Graph Processing>)使得这一概念被更多人所认识,据说在Google 80%的程序运行在MapReduce上,20%的程序运行在Pregel上.和MapReduce一样,Google并没有开源Pregel