一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}。而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>。一般用于线性回归中获得参数进行拟合。而梯度下降方法主要用于逻辑回归分类问题中寻找最佳参数。
二:最小二乘法:
基本思想:
简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。
这里m是样本数量,θ表示要求的参数,yi是观测值,
h是估计值
最小二乘的作用
用于得到回归方程的参数的一个最优估值。在统计学上,该估值可以很好的拟合训练样本。并且对于新的输入样本,当有了参数估值后,带入公式可以得到输入样本的输出。
如何求解最小二乘
多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个θi求偏导计算。
解:
三:极大似然估计
基本思想
当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。
极大似然估计的定义:
注意:一般的扰动项是对立同分布的,符合正态分布,因此y-hθ(x)也是正态分布,y就是以hθ(x)为中心的正态分布。
求解极大似然
同样使用多元函数求极值的方法。
四:最小二乘与极大似然估计的区别和理解
区别来自:http://blog.sina.com.cn/s/blog_4b12446d010191ri.html
对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。
在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的。一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。
最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。
理解来自:http://www.zhihu.com/question/20447622
最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为leastsquare,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。
五:为什么最小二乘法对误差的估计要用平方?
在区别当中提到了当假设数据满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。这也是为什么最小二乘法对误差的估计用平方!!下面给出证明。来自:http://www.fuzihao.org/blog/2014/06/13/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95%E5%AF%B9%E8%AF%AF%E5%B7%AE%E7%9A%84%E4%BC%B0%E8%AE%A1%E8%A6%81%E7%94%A8%E5%B9%B3%E6%96%B9/
当然上面的公式有误,少了个σ,但是不影响结果。
参考文献:
1:http://blog.csdn.net/luo86106/article/details/40508455最小二乘和最大似然估计