最小二乘与最大似然估计之间的关系

          1、结论

              测量误差(测量)服从高斯分布的情况下, 最小二乘法等价于极大似然估计。

          2、最大似然估计

                                  

              最大似然估计就是通过求解最大的(1)式得到参数,其中 L 函数称为参数的似然函数,是一个概率分布函数。

              似然估计的思想是:测量值 X 是服从概率分布的,求概率模型中的参数,使得在假设的分布下获得该组测量出现概率最大:

              例如:通过一次测量得到1.9、1.9、2.0、2.1、2.0、1.9、1.5、2.5、2.0、2.0,

                      通过直觉我们发现这组测量比较符合期望为2的高斯分布。

                      要不然,为什么取值都在2附近呢,为啥测量数据中没有(很少)1.0、5.0呢?也就是说,可以认为我的这些测量

                      是符合某个概率分布的(这个例子中为高斯分布),测量值中得到2附近值的概率比较大。

               例如:一个箱子里有红球和黑球,通过10次放回抽取实验得到的结果为:8次黑球、2次红球。问箱子中黑球的比例?

                      这个例子中箱子里只有红球和黑球,可以假设黑球的比例为 p ,那么红球的概率为(1-p),

                      那么10次实验中8次黑球、两次红球的概率为:

时间: 2024-08-03 21:18:02

最小二乘与最大似然估计之间的关系的相关文章

深度学习中交叉熵和KL散度和最大似然估计之间的关系

机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵 提到交叉熵就需要了解下信息论中熵的定义.信息论认为: 确定的事件没有信息,随机事件包含最多的信息. 事件信息的定义为:\(I(x)=-log(P(x))\):而熵就是描述信息量:\(H(x)=E_{x\sim P}[I(x)]\),也就是\(H(x)=E_{x\sim P}[-log(P(x))]=-\Sigma_xP(x)l

最小二乘法和最大似然估计的联系和区别(转)

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小.而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大.显然,这是从不同原理出发的两种参数估计方法. 在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数.与最小二乘法不同的是,最大似然法需要已知这个概率分布函

最大似然估计为什么要相乘和最小二乘法

回答1: 最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大.因为你手头上的样本已经实现了,其发生概率最大才符合逻辑.这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总.此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值.最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小.本来用两者差的绝对值汇总并使之最小是最理

最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络

最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看.今天准备写一写很多童鞋们w未必完全理解的最大似然估计的部分. 单纯从原理上来说,最大似然估计并不是一个非常难以理解的东西.最大似然估计不过就是评估模型好坏的方式,它是很多种不同评估方式中的一种.未来准备写一写最大似然估计与它的好朋友们,比如说贝叶斯估计 (Beyasian Estimation), 最大后验估计(Max

最大似然估计总结

from http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然

最大似然估计的复习(转)

转自:http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数

最大似然估计 (MLE)与 最大后验概率(MAP)在机器学习中的应用

最大似然估计 MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”. 例如,对于线性回归,我们假定样本是服从正态分布,但是不知道均值和方差:或者对于逻辑回归,我们假定样本是服从二项分布,但是不知道均值,逻辑回归公式得到的是因变量y的概率P = g(x), x为自变量,通过逻辑函数得到一个概率值,y对应离散值为0或者1,Y服从二项分布,误差项服从二项分布,而非高斯分布,所以不能用最小二乘进行模型参数估计,可以用极大似然估计来进

模式识别:最大似然估计与贝叶斯估计方法

之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具--参数估计. 参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程.18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道.20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展.参数估计有多种方法,有最小二乘法.极大似然法.极大验后法.最小风险法和极小

转载-最大似然估计学习总结

下面是转载http://blog.csdn.net/yanqingan/article/details/6125812博客的内容 最大似然估计学习总结   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数.似然函数值的大