最大似然估计为什么要相乘和最小二乘法

回答1:

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。

回答2:

说的通俗一点啊,最大似然估计,就是利用已知的样本结果反推最有可能(最大概率)导致这样结果的参数值。
例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法: 我假设我抽到黑球的概率为p,那得出8次黑球2次白球这个结果的概率为:
P(黑=8)=p^8*(1-p)^2,现在我想要得出p是多少啊,很简单,使得P(黑=8)最大的p就是我要求的结果,接下来求导的的过程就是求极值的过程啦。
可能你会有疑问,为什么要ln一下呢,这是因为ln把乘法变成加法了,且不会改变极值的位置(单调性保持一致嘛)这样求导会方便很多~

同样,这样一道题:设总体X 的概率密度为
已知 X1,X2..Xn是样本观测值,求θ的极大似然估计

这也一样啊,要得到 X1,X2..Xn这样一组样本观测值的概率是
P{x1=X1,x2=X2,...xn=Xn}= f(X1,θ)f(X2,θ)…f(Xn,θ) 
然后我们就求使得P最大的θ就好啦,一样是求极值的过程,不再赘述。

回答3:

最大似然估计是一类方法的总称,包括了最小二乘法。例如:在线性回归问题中,假设误差服从高斯分布的前提下,对模型参数的最大似然估计就是最小二乘法。

http://www.fuzihao.org/blog/2014/06/13/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95%E5%AF%B9%E8%AF%AF%E5%B7%AE%E7%9A%84%E4%BC%B0%E8%AE%A1%E8%A6%81%E7%94%A8%E5%B9%B3%E6%96%B9/

回答4:

最大似然函数的值可能很小,但是它的值大小并没什么用。事情都已经发生了,你还不给最大可能我。

参考文献:http://www.zhihu.com/question/20447622

时间: 2024-10-31 17:40:14

最大似然估计为什么要相乘和最小二乘法的相关文章

最小二乘法和最大似然估计的联系和区别(转)

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小.而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大.显然,这是从不同原理出发的两种参数估计方法. 在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数.与最小二乘法不同的是,最大似然法需要已知这个概率分布函

最小二乘与最大似然估计之间的关系

          1.结论               测量误差(测量)服从高斯分布的情况下, 最小二乘法等价于极大似然估计.           2.最大似然估计                                                  最大似然估计就是通过求解最大的(1)式得到参数,其中 L 函数称为参数的似然函数,是一个概率分布函数.               似然估计的思想是:测量值 X 是服从概率分布的,求概率模型中的参数,使得在假设的分布下获得该组测量出现

模式识别:最大似然估计与贝叶斯估计方法

之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具--参数估计. 参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程.18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道.20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展.参数估计有多种方法,有最小二乘法.极大似然法.极大验后法.最小风险法和极小

logistic回归和用最大似然估计选取CostFunction

逻辑回归的想法是用回归的方法来解决分类问题,然而直接用线性回归达不到我们想要的效果如下图(原因不再赘述),所以我们选取了sigmoid函数来进行拟合,原因以后阐述. 所以我们选择了如下的函数来拟合: 然而,应该怎样定义它的CostFunction呢?同样,线性回归为何选用最小二乘法的CostFunction? 先给出不准确的定义:这个Cost函数就只有一个极值点,且为极小值(如何判断?导数为0点只有一个,且当x大于极值点时,导数恒大于0,所有的能用梯度下降来拟合的函数必须满足这一关系) 其实,C

最大似然估计-高斯分布

前言:介绍了最简单的最大似然估计,距离实现「朴素贝叶斯」还有一些距离.在这篇文章,我想分享一下,我所理解的「最大似然估计 - 高斯分布」. 问题 (这里都是玩具数据,为了方便理解才列出) 0 1 2 3 4 5 6 7 8 9 10 11 12 X 1 2 3 4 4.2 4.4 4.6 4.8 5 6 7 8 y 0 0 0 0 1 1 1 1 0 0 0 0 假设 x = 4.9 用科学的办法估计 y 的分类. 预备知识 高斯分布的概率密度函数 高斯分布的概率密度函数 理解 通常用「概率密度

最大似然估计和最大后验概率MAP

最大似然估计是一种奇妙的东西,我觉得发明这种估计的人特别才华.如果是我,觉得很难凭空想到这样做. 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点.频率派认为,参数是客观存在的,只是未知而矣.因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示: 相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一

最大似然估计总结

from http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然

参数估计:最大似然估计、贝叶斯估计与最大后验估计

简介: 在概率统计中有两种主要的方法:参数统计和非参数统计(或者说参数估计和非参数估计). 其中,参数估计是概率统计的一种方法.主要在样本知道情况下,一般知道或假设样本服从某种概率分布,但不知到具体参数(或者知道具体模型,但不知道模型的参数). 参数估计就是通过多次试验,观察其结果,利用结果推出参数的大概值. (当你推出参数的极大可能值时,就相当于知道了分布及其参数情况,就可以利用它来推测其他样例出现的概率了. 这属于应用了) 参数估计的方法有多种,这里我们分析三种基于概率的方法,分别是最大似然

最大似然估计的复习(转)

转自:http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数