似然函数 | 最大似然估计 | R代码

学贝叶斯方法时绕不过去的一个问题,现在系统地总结一下。

之前过于纠结字眼,似然和概率到底有什么区别?以及这一个奇妙的对等关系(连续才是f,离散就是p)。

wiki:在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。

这里我们讨论的范围已经界定了,那就是在指定模型下(比如二项分布),我们观测数据和可能的模型参数之间的关系。

(传统的贝叶斯定理的适用范围很广,是高度的总结推广,在似然函数里就不要过于推广了)

似然函数在直觉上就很好理解了,L(θ|x)就是在给定模型下(这就是为什么贝叶斯是model specific的原因),在给定数据x时,不同模型参数θ出现的概率。(大错特错,是似然值)

如何理解似然函数?

很多都是错的,全部资料都要查英文,所有符号都要准确,不能乱写!!!!!符号书写的错误会带来极大的误解!!!!

似然函数的定义是什么?定义都不明确,还讨论研究个什么????

为什么(在函数值形式上) L(θ|x) = f(x|θ)?没必要问为什么对等,因为似然函数就是这么定义而来的。似然函数是为了方便,根据条件概率独立出来的一个新概念而已。

举个例子,对于X~binomial(2, 0.5)而言,P(X=2 | θ=0.5) = 0.25 = L(θ=0.5 | X=2) ,这就是定义。

你应该问为什么似然函数得出的关于θ的似然值之间可以比较?L(θ=1 | X=2) = 1 > L(θ=0.5 | X=2) 意味着什么?我的data X=2在θ=1时出现的概率更高。说明取θ=1时,我的模型能更好的预测结果。

为什么要用似然区分概率?X=2是事件所以有概率,而θ=1并不是事件,因为没有随机试验,而且总的似然值也不为1. 似然是一个我们主动尝试参数的结果,它的本质还是依赖概率。

L(θ|x) 和 f(θ|x)有什么本质的区别? 一个问题看你懂不懂条件概率和似然值

已知有事件x发生,运用似然函数,我们估计参数θ的可能性。形式上,似然函数也是一种条件概率函数。一个是似然值,一个是概率值,完全不同的东西。(别看中文wiki

为什么f(x|θ) != f(θ|x)? (常识)

存在L(x|θ)吗?(不存在)

在统计学中,“似然性”和“概率”(或然性)又有明确的区分:概率,用于在已知一些参数的情况下,预测接下来在观测上所得到的结果;似然性,则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。在这种意义上,似然函数可以理解为条件概率的逆反。(中文wiki瞎扯)

似然函数和密度函数是完全不同的两个数学对象:前者是关于theta的函数,后者是关于x的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。- 知乎

举个明确的例子,假设我们的抛两次硬币,出现H的次数x服从binomial(2, p)的二项分布,又假设我们我们观测了一次发现x=2,那么p=0.5的概率有多大?(必须是区间,单点的概率是~0)

注:算了一半天对不上,才发现,我把很多概念混淆了。

f(x|θ),按照定义就是当我们已知θ=p=0.5时,x=5出现的概率,根据二项分布;计算可得:f(x=2|θ=0.5) = 0.25

f(θ|x),按照定义就是当我们已知x=2时,p=0.5出现的概率,此时的限定空间是x=2;f(θ=0.5|x=2) ,这就是贝叶斯的后验概率。

f(θ|x) = f(x|θ) * f(θ) / f(x),一定要好好理解这个公式。

有两种可视化的方式:韦恩图和二维density图。

L(θ|x),按照定义就是给定数据x=5时,p=0.4~0.5出现的概率(显然不能这么定义,这就和f(θ|x)一模一样了)。

真的很坑人,这个属于学术界定义的问题,不明所以的人很容易走火入魔栽进去 ,必须了解这方面的历史,先看定义。

必须明确数学语言,不可含糊。

wiki案例:图2. 三次投掷中头两次正面朝上,第三次反面朝上时的似然函数。可以看到似然函数的积分并不等于1,需要关注的只是大小的相对变化.



基础知识回顾

事件之间的相互独立:在概率论里,说两个事件是独立的,直觉上是指一次实验中一事件的发生不会影响到另一事件发生的概率。例如,在一般情况下可以认为连续两次掷骰子得到的点数结果是相互独立的。类似地,两个随机变量是独立的,若其在一事件给定观测量的条件概率分布和另一事件没有被观测的概率分布是一样的。

概率定义:两个事件A和B是独立的当且仅当Pr(A ∩ B) = Pr(A)*Pr(B)

事件之间互斥:A和B之间不能同时发生。

概率定义:P(A+B)=P(A)+P(B),或者P(AB) = 0.

韦恩图里的交集到底是什么?不管A和B是否独立,都不影响韦恩图的交集。有交集代表A和B不互斥。所以韦恩图是看不出来事件之间的关系的,只能判断是否互斥。

贝叶斯定理很健壮,当A和B相互独立时,也是成立的,此时的条件概率就没有意义了。互斥时也是成立的,只是等式为0.

条件概率是用于衡量事件之间相互关系的,当A和B事件之间不互斥也不相互独立,也就是某种程度的相互影响。

只怪当时学得太肤浅,不求甚解。。。

突然明白为什么数学和逻辑学会费力气造出这么多独立的符号和语言,因为语言不精准的话思考到后面就是一团浆糊了

随机试验:定义里包括了三个必要条件,可重复、结果空间已知、单次结果不可知;不随机试验有很多种,不可重复,比如历史;样本空间无限,无穷;单次结果已知,单面硬币。随机是针对第三条的,单次结果在试验前不可知。

随机事件:也叫事件,在随机试验里,基本上,只要样本空间是有限的,则在样本空间内的任何一个子集合,都可以被称为是一个事件。

概率里的事件很复杂,需要分情况考虑。

  • 同一次随机试验下的随机事件,A1,B1
  • 不同随机试验下的随机事件,A1,A2

这里要来继续讨论独立和互斥。

用日常语言来思考非常难受,还是用数学用语吧。

独立:Pr(A ∩ B) = Pr(A)*Pr(B),独立就没有条件概率,独立一般描述不同随机试验之间的关系。可以随机变量之间独立,可以事件独立。不独立就是有关系,有点复杂。

互斥:P(A+B)=P(A)+P(B),不互斥就是A和B有交集,可能同时发生。互斥描述的是同一次随机试验下的随机事件之间的关系。

条件概率:AB发生的条件下发生的概率。当A和B既不独立,也不互斥,此时贝叶斯定理和推断才有意义。

P(A, B)和P(A|B)本质的区别?P(AB) ,没错最终的效果是一样的A和B都会发生,但是出发点不一样,一个是全集,一个是B空间。

原文地址:https://www.cnblogs.com/leezx/p/10859954.html

时间: 2024-11-13 10:48:41

似然函数 | 最大似然估计 | R代码的相关文章

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等). 统计研究的问题则相

模式识别:最大似然估计与贝叶斯估计方法

之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具--参数估计. 参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程.18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道.20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展.参数估计有多种方法,有最小二乘法.极大似然法.极大验后法.最小风险法和极小

【机器学习算法-python实现】最大似然估计(Maximum Likelihood)

1.背景 最大似然估计是概率论中常常涉及到的一种统计方法.大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性.当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改. 博主是参照wiki来学习的,地址请点击我 这里实现的是特别简单的例子如下(摘自wiki的最大似然) 离散分布,离散有限参数空间[编辑] 考虑一个抛硬币的例子.假设这个硬币正面跟反面轻重不同.我们把这个硬币抛80次(即,我们获取一个采样并把正面的次数记下来,正面记为

【机器学习基本理论】详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

https://mp.csdn.net/postedit/81664644 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们. 下文将详细说明MLE和MAP的思路与区别.先讲解MLE的相应知识. 但别急,我们先从概率和统计的区别讲起. 1概率和统计是一个东西吗?   概率(probabilt

最大似然估计和最大后验概率MAP

最大似然估计是一种奇妙的东西,我觉得发明这种估计的人特别才华.如果是我,觉得很难凭空想到这样做. 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点.频率派认为,参数是客观存在的,只是未知而矣.因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示: 相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一

最大似然估计总结

from http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然

最大似然估计的复习(转)

转自:http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数

最大似然估计 (MLE) 最大后验概率(MAP)

1) 最大似然估计 MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”.例如,我们知道这个分布是正态分布,但是不知道均值和方差:或者是二项分布,但是不知道均值. 最大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数.MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大: 其中就是似然函数,表示在参数下出现观测数据的概率.我们假设每个观测数据是独立的,那么有 为了

最小二乘法和最大似然估计的联系和区别(转)

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小.而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大.显然,这是从不同原理出发的两种参数估计方法. 在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数.与最小二乘法不同的是,最大似然法需要已知这个概率分布函