最小二乘法和最大似然估计

一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}。而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>。一般用于线性回归中获得参数进行拟合。而梯度下降方法主要用于逻辑回归分类问题中寻找最佳参数。

二:最小二乘法:

基本思想:

简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。

这里m是样本数量,θ表示要求的参数,yi是观测值,
h是估计值

最小二乘的作用

用于得到回归方程的参数的一个最优估值。在统计学上,该估值可以很好的拟合训练样本。并且对于新的输入样本,当有了参数估值后,带入公式可以得到输入样本的输出。

如何求解最小二乘

多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个θi求偏导计算。

解:

三:极大似然估计

基本思想

当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

极大似然估计的定义:

注意:一般的扰动项是对立同分布的,符合正态分布,因此y-hθ(x)也是正态分布,y就是以hθ(x)为中心的正态分布。

求解极大似然

同样使用多元函数求极值的方法。

四:最小二乘与极大似然估计的区别和理解

区别来自:http://blog.sina.com.cn/s/blog_4b12446d010191ri.html

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。

在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的。一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。

最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。

理解来自:http://www.zhihu.com/question/20447622

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。

最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为leastsquare,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。

五:为什么最小二乘法对误差的估计要用平方?

在区别当中提到了当假设数据满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。这也是为什么最小二乘法对误差的估计用平方!!下面给出证明来自:http://www.fuzihao.org/blog/2014/06/13/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95%E5%AF%B9%E8%AF%AF%E5%B7%AE%E7%9A%84%E4%BC%B0%E8%AE%A1%E8%A6%81%E7%94%A8%E5%B9%B3%E6%96%B9/

当然上面的公式有误,少了个σ,但是不影响结果。

参考文献:

1:http://blog.csdn.net/luo86106/article/details/40508455最小二乘和最大似然估计

时间: 2024-11-03 05:43:56

最小二乘法和最大似然估计的相关文章

转 通俗理解 最小二乘 和 最大似然估计

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大.因为你手头上的样本已经实现了,其发生概率最大才符合逻辑.这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总.此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值. 就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估

极大似然估计

极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况? 举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估计的方法就可以用这些样本数据就可估计出正态分布中参数.概括起来说,就是用样本来估计总体情况,(调查问卷.人口普查等等其实就暗含这个原理). 假设总体X的分布为f(x:θ1,...θn),其中θ是未知

【MLE】最大似然估计Maximum Likelihood Estimation

模型已定,参数未知 最大似然估计提供了一种给定观察数据来评估模型参数的方法,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知.我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差. 最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的.下面我们具体描述一下最大似然估计: 首先,假设为独立同分布的采样,θ为模型参数,f为我们所使用的模型,遵循我们上述的独

【机器学习】(3)拟合度与最大似然估计

在大致了解了机器学习的算法分类(监督式.非监督式以及增强学习)和梯度算法后,今天我们来了解下拟合度和最大似然估计的相关问题. 一.最小二乘法的拟合度 监督式学习中一类典型的应用就是回归问题,基本的就是线性回归,即用一条直线去逼近训练集合.最小二乘法就是根据已有的训练集样本来确定拟合度最好的函数 曲线.但是由于选择一个什么样的曲线是人工决定的,而不同的曲线又具有不同的性质,从而导致不同函数模型使用最小二乘法的拟合度是不同的.以一个m个样本 的房屋价格和大小数据M为例,我们可以选择线性回归(用一条直

又看了一次EM 算法,还有高斯混合模型,最大似然估计

先列明材料: 高斯混合模型的推导计算(英文版): http://www.seanborman.com/publications/EM_algorithm.pdf 这位翻译写成中文版: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html 高斯混合模型的流程: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html 最大似然估计: http://bl

先验概率、后验概率、似然估计,似然函数、贝叶斯公式

联合概率的乘法公式: (如果随机变量是独立的,则)  由乘法公式可得条件概率公式:, , 全概率公式:,其中 (,则,则可轻易推导出上式) 贝叶斯公式: 又名后验概率公式.逆概率公式:后验概率=似然函数×先验概率/证据因子.解释如下,假设我们根据“手臂是否很长”这个随机变量(取值为“手臂很长”或“手臂不长”)的观测样本数据来分析远处一个生物是猩猩类别还是人类类别(假设总共只有这2种类别).我们身处一个人迹罕至的深山老林里,且之前就有很多报道说这里有猩猩出没,所以无需观测样本数据就知道是猩猩的先验

统计参数的最大似然估计

已经介绍了统计参数的举估计,下面介绍另外一种估计,并且比较这两者. 对于一组样本,它们无条件是独立的.那么考虑到联合分布函数与边缘分布函数的关系,利用乘法原理,我们发现,样本的联合分布函数是: (离散) (连续) 又发现,它们是与总体同分布的:,那么连续的情况还可以写作: 现如今上面的式子中存在未知的参数,.把 L 换做以众多未知参数为元,就得到了: 称作是样本的似然函数. 当使得似然函数最大时的样本的参数估计,叫做样本的最大似然估计. 至于如何求之,仅仅是简单的多元函数求值而已. 发现 L 是

『科学计算_理论』最大似然估计

概述 通俗来讲,最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值. 重要的假设是所有采样满足独立同分布. 求解模型参数过程 假如我们有一组连续变量的采样值(x1,x2,-,xn),我们知道这组数据服从正态分布,标准差已知.请问这个正态分布的期望值为多少时,产生这个已有数据的概率最大? P(Data | M) = ? 根据公式 可得: 对μ求导可得 ,则最大似然估计的结果为μ=(x1+x2+-+xn)/n 由上可知最大似然估计的一般求解过程: (1) 写出似然函数

机器学习2-极大似然估计与贝叶斯估计

参数估计:最大似然.贝叶斯与最大后验 为什么会有参数估计呢?这要源于我们对所研究问题的简化和假设.我们在看待一个问题的时候,经常会使用一些我们所熟知的经典的模型去简化问题,就像我们看一个房子,我们想到是不是可以把它看成是方形一样.如果我们已经知道这个房子是三间平房,那么大体上我们就可以用长方体去描述它的轮廓.这个画房子的问题就从无数的可能性中,基于方圆多少里大家都住平房的经验,我们可以假设它是长方体,剩下的问题就是确定长宽高这三个参数了,问题被简化了.再如学生考试的成绩,根据既往的经验,我们可以