最小二乘法的概率解释

最小二乘法简介

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

上面的定义是摘自维基百科,在实际拟合应用中,而我个人直观的理解就是,最小二乘法是一个评价函数(标准),用来评价我们得到的拟合曲线是否是最好的。最小二乘法的函数表示为:

其中表示我们拟合函数得到的拟合结果,表示真实值。

为什么是这个函数

首先假设我们有这样的数据集:,是当前实例的一个特征向量,是对应的输出,m是数据集的大小。拟合问题的目标通常是寻找到一个函数,能够很好的描述这些点的分布情况。最简单的情况就是一条直线,然而在实际应用要复杂得多,数据是高维的。

面对一个高维的拟合问题,我们通常假设一个参数向量,则预测输出为:

拟合问题的目标就是寻找一个合适的值,使得上面的公式到达最小。

那么为什么要选择这个函数而不是其他函数呢,为了回答这个问题,我们又要进行假设了,假设输入和输出之间的真实关系是这样的:

其中称为错误项(error term),表示当前实例所有没有被特征值表达出来的影响因素(也可以理解成噪音)。我们进一步假设是独立同分布的,因此,根据中心极限定理,这个应该满足标准的正态分布,即:

所以的密度函数可以写成:

所以我们可以得到:

此处表示在给定并且参数为的情况下,的分布情况1

1此处的原文是: “ indicates that this is the distribution of given  and parameterized by 

。 注意,此时不是一个随机变量,而应该看成一个固定的值(虽然此时我们并不知道具体是多少)。

表示所有数据组成的矩阵(是一个向量),用表示所有组成的向量,那么我们就可以得到似然函数

为了最大程度的使拟合符合真实情况,我们尽可能的使达到最大,也就是说在给定的情况下,使得的概率最大。

但是公式太过复杂,不好处理,因此我们可以将求的最大值转化为求的最大值2

2此处利用了对数函数的性质

,所以:

最终,最大化就可以转化成为最小化,这个公式是不是有点眼熟呢?就是上面最开始给出的最小二乘法(公式)的函数形式!

总结

本文是根据斯坦福大学的Andrew Ng教授的《机器学习》的公开课整理而成的,首先从假设误差项符合正态分布3

3正态分布真的是一个非常神奇的东西,生活中很多事情背后都隐含着正态分布的身影,更多内容可以查看这里

开始,一步一步推导,最终证明最小二乘法的有效性。最小二乘法是一个非常常见的数学优化技术,如果了解其存在的原因,对以后学习和使用都有很大的益处。

参考资料

转载自:http://zhouyichu.com/machine-learning/Least-Squares-Probabilistic-Interpretation.html

时间: 2024-08-23 23:56:54

最小二乘法的概率解释的相关文章

机器学习(3)之最小二乘法的概率解释

机器学习(3)之最小二乘法的概率解释 在前面梯度下降以及正规方程组求解最优解参数Θ时,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正y值之间面积的平方最小化? 我们提供一组假设,证明在这组假设下最小二乘是有意义的,但是这组假设不唯一,还有其他很多方法可以证明其有意义. (1)      假设1: 假设输入与输出为线性函数关系,表示为: 其中,为误差项,这个参数可以理解为对未建模效应的捕获,如果还有其他特征,这个误差项表示了一种我们没有捕获的特征,或者看成一种随机的噪声. 假设服从

最小二乘法的概率解释-最大似然方法

对于常规线性模型来说,其精确的模型可定义如下: 其中,模型中的第一部分描述了通过待预测值随自变量的变化趋势,而第二部分描述了线性模型不能建模的误差项. 最小二乘方法采用损失代价和最小来获得线性模型的参数.在此,我们通过假设误差项的概率分布,并用最大似然估计的方法寻求模型参数Θ. 在此,我们假设误差项ε是独立同分布的,并且符合均值为0的高斯分布,即: 则,待预测值也服从均值为的高斯分布: 上式可理解为当给定X,Θ时,待预测值y的概率分布,我们同时也可以给出Θ的似然函数: 由于不同观测点的误差项服从

Stanford大学机器学习公开课(三):局部加权回归、最小二乘的概率解释、逻辑回归、感知器算法

(一)局部加权回归 通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的 过拟合(overfitting),不符合数据真实的模型.如下图的右图. 下面来讲一种非参数学习方法——局部加权回归(LWR).为什么局部加权回归叫做非参数学习方法呢?首先,参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖

【机器学习详解】线性回归、梯度下降、最小二乘的几何和概率解释

线性回归 即线性拟合,给定N个样本数据(x1,y1),(x2,y2)....(xN,yN)其中xi为输入向量,yi表示目标值,即想要预测的值.采用曲线拟合方式,找到最佳的函数曲线来逼近原始数据.通过使得代价函数最小来决定函数参数值. 采用斯坦福大学公开课的例子:假如一套房子的价格只考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定,现在拿到手有m个样本,如下图所示.此例中,输入x=(x1,x2)为2维向量,分别对应房屋面积和卧室数目,y对应价格.现在想根据上述样本

【机器学习具体解释】线性回归、梯度下降、最小二乘的几何和概率解释

线性回归 即线性拟合,给定N个样本数据(x1,y1),(x2,y2)....(xN,yN)当中xi为输入向量,yi表示目标值,即想要预測的值.採用曲线拟合方式,找到最佳的函数曲线来逼近原始数据.通过使得代价函数最小来决定函数參数值. 採用斯坦福大学公开课的样例:假如一套房子的价格仅仅考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定,如今拿到手有m个样本,例如以下图所看到的. 此例中.输入x=(x1,x2)为2维向量.分别相应房屋面积和卧室数目,y相应价格.如今想

【CS229笔记一】监督学习,线性回归,LMS算法,正态方程,概率解释和局部加权线性回归

监督学习 对于一个房价预测系统,给出房间的面积和价格,以面积和价格作坐标轴,绘出各个点. 定义符号: \(x_{(i)}\)表示一个输入特征\(x\). \(y_{(i)}\)表示一个输出目标\(y\). \((x_{(i)},y_{(i)})\)表示一个训练样本. \(\left\{(x_{(i)},y_{(i)});i=1,\dots,m\right\}\)代表m个样本,也称为训练集. 上标\((i)\)代表样本在训练集中的索引. \(\mathcal{X}\)代表输入值的空间,\(\mat

最小二乘法的推导证明

1.附加题:推导线性最小二乘法过程 上述式子求解b 时最后一步用到求和性质,事实上 同理可证分子部分,具体请参考<计量经济学导论(第四版)Introductory Econometrics A Modern Approach Fourth Edition · 杰弗里·M·伍德里奇(Jeffrey M. Wooldridge)著>中的附录A 基本数学工具 . 2.赛马问题 问:36匹马,6条跑道,无计时器,最少几次比赛可以选出前3名? 答案是8次,思路如下: (1)把36匹马分成6组,分别进行6

Partial least squares regression(偏最小二乘法回归)

偏最小二乘法(PLS)是近年来发展起来的一种新的多元统计分析 http://en.wikipedia.org/wiki/Partial_least_squares_regression Partial least squares regression(偏最小二乘法回归),布布扣,bubuko.com

基于 移动最小二乘法(MLS) 的三维数据拟合

项目介绍: 1. 需要预测的数据: 2. 采用的权函数以及形函数: 3. 求解的形函数曲线结果: 4. 算法流程图: 5. 预测结果: x=[234 255 255 76 12];y=[162 242 176 54 55];z=[199 200 57 50 73]; 对应的预测结果为: >> MLS_Output Esti_ux = 53.3651 73.8599 54.2216 5.9668 9.0063 Esti_uy = 43.9818 77.5332 48.3499 5.2517 11