先验概率、似然函数与后验概率

先验概率

Prior probability

在贝叶斯统计中,先验概率分布,即关于某个变量 p 的概率分布,是在获得某些信息或者依据前,对 p 的不确定性进行猜测。例如, p 可以是抢火车票开始时,抢到某一车次的概率。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。

先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,

在应用贝叶斯理论时,通常将先验概率乘以似然函数(likelihoodfunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。

似然函数

似然函数(likelihood function),也称作似然,是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于结果 x ,在参数集合 θ 上的似然,就是在给定这些参数值的基础上,观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的 x 的值的条件分布。

似然函数在统计推测中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来评估一组统计的参数,也就是说在一组统计方案的参数中,可以用似然函数做筛选。在非正式的语境下,“似然”会和“概率”混着用;但是严格区分的话,在统计上,二者是有不同。

不同就在于,观察值 x 与参数 θ 的不同的角色。概率是用于描述一个函数,这个函数是在给定参数值的情况下的关于观察值的函数。例如,已知一个硬币是均匀的(在抛落中,正反面的概率相等),那连续10次正面朝上的概率是多少?这是个概率。

而似然是用于在给定一个观察值时,关于用于描述参数的情况。例如,如果一个硬币在10次抛落中正面均朝上,那硬币是均匀的(在抛落中,正反面的概率相等)概率是多少?这里用了概率这个词,但是实质上是“可能性”,也就是似然了。

后验概率

Posterior probability

后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。

后验概率是关于参数 θ 在给定的证据信息 X 下的概率: p(θ|x) 。

若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布: p(x|θ) 。

二者有如下关系:

我们用 p(θ) 表示概率分布函数,用 p(x|θ) 表示观测值 x 的似然函数。后验概率定义如下:

p(θ|x)=p(x|θ)p(θ)p(x)

鉴于分母不变,可以表达成如下正比关系:

Posteriorprobability∝Likelihood×Prior probability

来先举一个例子:

如果有一所学校,有60%是男生和40%是女生。女生穿裤子与裙子的数量相同;所有男生穿裤子。一个观察者,随机从远处看到一名学生,观察者只能看到该学生穿裤子。那么该学生是女生的概率是多少?这里题目中观察者比如近似眼看直接不清性别,或者从装扮上看不出。答案可以用贝叶斯定理来算。

用事件 G 表示观察到的学生是女生,用事件 T 表示观察到的学生穿裤子。于是,现在要计算 P(G|T) ,我们需要知道:

P(G) ,表示一个学生是女生的概率,这是在没有任何其他信息下的概率。这也就是我们说的先验概率。由于观察者随机看到一名学生,意味着所有的学生都可能被看到,女生在全体学生中的占比是 40 ,所以概率是 0.4 。

P(B) ,是学生不是女生的概率,也就是学生是男生的概率,也就是在没有其他任何信息的情况下,学生是男生的先验概率。 B 事件是 G 事件的互补的事件,这个比例是 60 ,也即 0.6 。

P(T|G) 是在女生中穿裤子的概率,根据题目描述,是相同的 0.5 。这也是 T 事件的概率,given G 事件。

P(T|B) 是在男生中穿裤子的概率,这个值是1。

P(T) 是学生穿裤子的概率,即任意选一个学生,在没有其他信息的情况下,TA穿裤子的概率。如果要计算的话,那可以计算出所有穿裤子的学生的数量,除以总数,总数可以假设为常数 C ,但是最后会被约去。或者根据全概率公式 P(T)=P(T|G)P(G)+P(T|B)P(B) 计算得到 P(T)=0.5×0.4+1×0.6=0.8 。

基于以上所有信息,如果观察到一个穿裤子的学生,并且是女生的概率是

P(G|T)=P(T|G)P(G)P(T)=0.5×0.40.8=0.25.

这就是贝叶斯公式的一个示例,如果是两个相关的属性,我们只知道其中一些的概率分布情况,就可以根据贝叶斯公式来计算其他的一些后验概率的情况。

极大似然估计和贝叶斯估计

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:

D表示训练数据集,是模型参数

相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值,如下所示:

其中x表示输入,y表示输出,D表示训练数据集,是模型参数

该公式称为全贝叶斯预测。现在的问题是如何求(后验概率),根据贝叶斯公式我们有:

可惜的是,上面的后验概率通常是很难计算的,因为要对所有的参数进行积分,不能找到一个典型的闭合解(解析解)。在这种情况下,我们采用了一种近似的方法求后验概率,这就是最大后验概率。

最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。

从以上可以看出,一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。

参考资料:

[1] Machine learning: a probabilistic perspective 第三章

[2]Andrew Ng讲义,Regularization and model selection

http://v.163.com/special/opencourse/machinelearning.html

时间: 2024-11-06 05:51:05

先验概率、似然函数与后验概率的相关文章

机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(2)

在 机器学习中的贝叶斯方法---先验概率.似然函数.后验概率的理解及如何使用贝叶斯进行模型预测(1)文章中介绍了先验分布和似然函数,接下来,将重点介绍后验概率,以及先验概率.似然函数.后验概率三者之间的关系---贝叶斯公式. 在这篇文章中,我们通过最大化似然函数求得的参数 r 与硬币的抛掷次数(抛掷次数是10,求得的r=0.9)有关,为了更好地描述 参数 r 与 抛掷次数之间的关系,对下面符号作一些说明: 参数 r :抛一次硬币出现正面的概率,显然 r 的取值范围为[0,1] yN,在N次抛硬币

先验概率、后验概率、似然估计,似然函数、贝叶斯公式

联合概率的乘法公式: (如果随机变量是独立的,则)  由乘法公式可得条件概率公式:, , 全概率公式:,其中 (,则,则可轻易推导出上式) 贝叶斯公式: 又名后验概率公式.逆概率公式:后验概率=似然函数×先验概率/证据因子.解释如下,假设我们根据“手臂是否很长”这个随机变量(取值为“手臂很长”或“手臂不长”)的观测样本数据来分析远处一个生物是猩猩类别还是人类类别(假设总共只有这2种类别).我们身处一个人迹罕至的深山老林里,且之前就有很多报道说这里有猩猩出没,所以无需观测样本数据就知道是猩猩的先验

[转] 先验概率与后验概率&&贝叶斯与似然函数

from: https://blog.csdn.net/shenxiaoming77/article/details/77505549 先验概率和后验概率 教科书上的解释总是太绕了.其实举个例子大家就明白这两个东西了. 假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故. 堵车的概率就是先验概率 . 那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率 .也就是P(堵车|交通事故).这是有因求果. 如果我们已经出了门,

先验概率、后验概率以及共轭先验

在贝叶斯学派的观点中,先验概率.后验概率以及共轭分布的概念非常重要.而在机器学习中,我们阅读很多资料时也要频繁地跟他们打交道.所以理清这些概念很有必要. 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji,为保证公式.图表得以正确显示,强烈建议你从该地址上查看原版博文.本博客主要关注方向包括:数字图像处理.算法设计与分析.数据结构.机器学习.数据挖掘.统计分析方法.自然语言处理. 贝叶斯定理:一个例子 其实我们在之前介绍朴素贝叶斯分类器时就介绍过它,如果

共轭先验(conjugate prior)

共轭是贝叶斯理论中的一个概念,一般共轭要说是一个先验分布与似然函数共轭: 那么就从贝叶斯理论中的先验概率,后验概率以及似然函数说起: 在概率论中有一个条件概率公式,有两个变量第一个是A,第二个是B ,A先发生,B后发生,B的发生与否是与A有关系的,那么我们要想根据B的发生情况来计算 A发生的概率就是所谓的后验概率P(A|B)(后验概率是一个条件概率,即在B发生的条件下A发生的概率)计算公式是P(A|B)=P(AB)/P(B),而又有乘法公式P(AB)=P(A)P(B|A),这里的P(A)称为先验

Latent Dirichlet Allocation

主题模型 LDA是一个主题模型,关于主题模型的解释有个很通俗的例子: 第一个是:"乔布斯离我们而去了." 第二个是:"苹果价格会不会降?" 我们一眼就可以看出这两句是有关联的,第一句里面有了"乔布斯",我们会很自然的把"苹果"理解为苹果公司的产品,它们属于了同一个主题:苹果公司. 而像我之前那种计算关联度的时候,即文档之间重复的词语越多越可能相似,是无法达到这个效果的.文档之间重复的词语越多越可能相似,这一点在实际中并不尽然.

scikit-learn 线性回归算法库小结

scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景. 线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系,求出线性回归系数θθ,也就是 Y=XθY=Xθ.其中YY的维度为mx1,XX的维度为mxn,而θθ的维度为nx1.m代表样本个数,n代表样本特征的维度. 为了得到线性回归系数θθ,我们需要定义一个损失函数,一个极小化损失函数的优化方法,以及一个验证算法的方法.

高斯混合模型(GMM)

复习: 1.概率密度函数,密度函数,概率分布函数和累计分布函数 概率密度函数一般以大写“PDF”(Probability Density Function),也称概率分布函数,有的时候又简称概率分布函数. 而累计分布函数是概率分布函数的积分. 注意区分 从数学上看,累计分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率.这个意义很容易理解. 概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率.如果在某一x附近取非常小的一个邻域Δx,那么,随机变量X落在(x, x+Δx)内的

机器学习的数学基础(1)--Dirichlet分布

机器学习的数学基础(1)--Dirichlet分布 这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结. 基础知识:conjugate priors共轭先验 共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式.它极大地简化了贝叶斯分析. 如何解释这句话.由于 P(u|D) = p(D|u)p(u)/p(D)   (1.0式) 其中D是给定的一个样本集合,因此对其来说p(D)是一个确定的值,可以理解为一个常数.P(u|D)是