对似然函数的理解

一直对贝叶斯里面的似然函数(likelihood function),先验概率(prior),后验概率(posterior)理解得不是很好,今天仿佛有了新的理解,记录一下。

看论文的时候读到这样一句话:

原来只关注公式,所以一带而过。再重新看这个公式前的描述,细思极恐。

the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..


两个疑问:likelihood function为什么会写成条件概率的形式?given的明明是D,为什么到后面的公式里,却变成了given θ 呢?

百度了一下,先贴上wikipedia的解释:

https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0

下面整理一下自己的理解,借用wikipedia里面硬币的例子。

常说的概率是指给定参数后,预测即将发生的事件的可能性。拿硬币这个例子来说,我们已知一枚均匀硬币的正反面概率分别是0.5,要预测抛两次硬币,硬币都朝上的概率:

H代表Head,表示头朝上

p(HH | pH = 0.5) = 0.5*0.5 = 0.25.

这种写法其实有点误导,后面的这个p其实是作为参数存在的,而不是一个随机变量,因此不能算作是条件概率,更靠谱的写法应该是 p(HH;p=0.5)。

而似然概率正好与这个过程相反,我们关注的量不再是事件的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。

现在我们已经抛了两次硬币,并且知道了结果是两次头朝上,这时候,我希望知道这枚硬币抛出去正面朝上的概率为0.5的概率是多少?正面朝上的概率为0.8的概率是多少?

如果我们希望知道正面朝上概率为0.5的概率,这个东西就叫做似然函数,可以说成是对某一个参数的猜想(p=0.5)的概率,这样表示成(条件)概率就是

L(pH=0.5|HH) = P(HH|pH=0.5) = (另一种写法)P(HH;pH=0.5).

为什么可以写成这样?我觉得可以这样来想:

似然函数本身也是一种概率,我们可以把L(pH=0.5|HH)写成P(pH=0.5|HH); 而根据贝叶斯公式,P(pH=0.5|HH) = P(pH=0.5,HH)/P(HH);既然HH是已经发生的事件,理所当然P(HH) = 1,所以:

P(pH=0.5|HH)  = P(pH=0.5,HH) = P(HH;pH=0.5).

右边的这个计算我们很熟悉了,就是已知头朝上概率为0.5,求抛两次都是H的概率,即0.5*0.5=0.25。

所以,我们可以safely得到:

L(pH=0.5|HH) = P(HH|pH=0.5) = 0.25.

这个0.25的意思是,在已知抛出两个正面的情况下,pH = 0.5的概率等于0.25。

再算一下

L(pH=0.6|HH) = P(HH|pH=0.6) = 0.36.

把pH从0~1的取值所得到的似然函数的曲线画出来得到这样一张图:

(来自wikipedia)

可以发现,pH = 1的概率是最大的。

即L(pH = 1|HH) = 1。

那么最大似然概率的问题也就好理解了。

最大似然概率,就是在已知观测的数据的前提下,找到使得似然概率最大的参数值。

这就不难理解,在data mining领域,许多求参数的方法最终都归结为最大化似然概率的问题。

回到这个硬币的例子上来,在观测到HH的情况下,pH = 1是最合理的(却未必符合真实情况,因为数据量太少的缘故)。

先理解这么多。

时间: 2024-10-18 10:43:19

对似然函数的理解的相关文章

似然函数的概念

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性. 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等.“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分. 概率 用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而 似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计. 在这种意义上,似然函数可以理解为条件概率的逆反. 在已知某

似然函数

原文地址:http://blog.csdn.net/sunlylorn/article/details/19610589 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性.似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等."似然性"与"或然性"或"概率"意思相近,都是指某种事件发生的可能性,但是在统计学中,"似然性"和"或然性"或"概率&qu

似然函数 | 最大似然估计 | R代码

学贝叶斯方法时绕不过去的一个问题,现在系统地总结一下. 之前过于纠结字眼,似然和概率到底有什么区别?以及这一个奇妙的对等关系(连续才是f,离散就是p). wiki:在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性. 这里我们讨论的范围已经界定了,那就是在指定模型下(比如二项分布),我们观测数据和可能的模型参数之间的关系. (传统的贝叶斯定理的适用范围很广,是高度的总结推广,在似然函数里就不要过于推广了) 似然函数在直觉上就很好理解了,L(θ|x)就是在给定模型下(

机器学习基石笔记(三)

三.How Can Machines Learn? 第三节首先介绍了linear regression,线性可分的线性规划是有analytic solution的,林老师给我们推了一下,关键就是矩阵化的处理,简化了很多的工作 上面三幅图是整个推导的过程,需要注意的是,最后的X不一定是可逆的,因为我们的数据的数量N一般来说远大于d+1.所以x不可逆的可能性太大的,一般这时候就用伪逆来解决. 后面是解释为什么可以学习,经过一系列的推导可以得到下图: 这个是相当符合的我们的直观感受的,因为我们是用训练

class-逻辑回归最大熵

我们知道,线性回归能够进行简单的分类,但是它有一个问题是分类的范围问题,只有加上一个逻辑函数,才能使得其概率值位于0到1之间,因此本次介绍逻辑回归问题.同时,最大熵模型也是对数线性模型,在介绍最大熵模型的同时需要了解拉格朗日对偶法对约束最优化问题的求解,在文章末有几个关于牛顿法的链接,可供拓展阅读. 内容: 1 logistic regression model1.1 logistic distribution1.2 binary logistic regression model1.3 模型参

机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(2)

在 机器学习中的贝叶斯方法---先验概率.似然函数.后验概率的理解及如何使用贝叶斯进行模型预测(1)文章中介绍了先验分布和似然函数,接下来,将重点介绍后验概率,以及先验概率.似然函数.后验概率三者之间的关系---贝叶斯公式. 在这篇文章中,我们通过最大化似然函数求得的参数 r 与硬币的抛掷次数(抛掷次数是10,求得的r=0.9)有关,为了更好地描述 参数 r 与 抛掷次数之间的关系,对下面符号作一些说明: 参数 r :抛一次硬币出现正面的概率,显然 r 的取值范围为[0,1] yN,在N次抛硬币

[转]如何理解似然函数

作者:Yeung Evan链接:https://www.zhihu.com/question/54082000/answer/145495695来源:知乎 在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都表示对机会 (chance) 的同义替代.但在数学中,probability 这一指代是有严格的定义的,即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象(换句话说,不是所有的可以用0到1之间的数所表示的对象都能称为概率),而

先验概率、后验概率、似然函数与机器学习中概率模型(如逻辑回归)的关系理解

看了好多书籍和博客,讲先验后验.贝叶斯公式.两大学派.概率模型.或是逻辑回归,讲的一个比一个清楚 ,但是联系起来却理解不能 基本概念如下 先验概率:一个事件发生的概率 \[P(y)\] 后验概率:一个事件在另一个事件发生条件下的条件概率 \[P(y|x)\] 贝叶斯公式:联合概率公式直接能推导出来的,代表什么意义?不放在具体问题中代表不了任何意义 \[P(y|x) = \frac{{P(x|y)P(y)}}{{P(x)}}\] 拿一个实际的例子,如果用阴天预测是否下雨 先验概率:下雨的概率 \[

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等). 统计研究的问题则相