最小二乘法的概率解释

最小二乘法简介

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

上面的定义是摘自维基百科，在实际拟合应用中，而我个人直观的理解就是，最小二乘法是一个评价函数(标准)，用来评价我们得到的拟合曲线是否是最好的。最小二乘法的函数表示为:

其中表示我们拟合函数得到的拟合结果，表示真实值。

为什么是这个函数

首先假设我们有这样的数据集:,是当前实例的一个特征向量，是对应的输出,m是数据集的大小。拟合问题的目标通常是寻找到一个函数，能够很好的描述这些点的分布情况。最简单的情况就是一条直线，然而在实际应用要复杂得多，数据是高维的。

面对一个高维的拟合问题，我们通常假设一个参数向量，则预测输出为:

拟合问题的目标就是寻找一个合适的值，使得上面的公式到达最小。

那么为什么要选择这个函数而不是其他函数呢，为了回答这个问题，我们又要进行假设了，假设输入和输出之间的真实关系是这样的:

其中称为错误项(error term)，表示当前实例所有没有被特征值表达出来的影响因素(也可以理解成噪音)。我们进一步假设是独立同分布的，因此，根据中心极限定理，这个应该满足标准的正态分布，即:

所以的密度函数可以写成:

所以我们可以得到：

此处表示在给定并且参数为的情况下，的分布情况1

1此处的原文是: “ indicates that this is the distribution of given and parameterized by ”

。注意，此时不是一个随机变量，而应该看成一个固定的值(虽然此时我们并不知道具体是多少)。

用表示所有数据组成的矩阵(是一个向量)，用表示所有组成的向量，那么我们就可以得到似然函数：

为了最大程度的使拟合符合真实情况，我们尽可能的使达到最大，也就是说在给定的情况下，使得的概率最大。

但是公式太过复杂，不好处理，因此我们可以将求的最大值转化为求的最大值2

2此处利用了对数函数的性质

，所以:

最终，最大化就可以转化成为最小化，这个公式是不是有点眼熟呢？就是上面最开始给出的最小二乘法(公式)的函数形式!

总结

本文是根据斯坦福大学的Andrew Ng教授的《机器学习》的公开课整理而成的，首先从假设误差项符合正态分布3

3正态分布真的是一个非常神奇的东西，生活中很多事情背后都隐含着正态分布的身影，更多内容可以查看这里

开始，一步一步推导，最终证明最小二乘法的有效性。最小二乘法是一个非常常见的数学优化技术，如果了解其存在的原因，对以后学习和使用都有很大的益处。

参考资料

斯坦福《机器学习》公开课第三集及其配套讲义
最小二乘法？为神马不是差的绝对值
维基百科:正态分布

转载自：http://zhouyichu.com/machine-learning/Least-Squares-Probabilistic-Interpretation.html

时间： 2025-02-01 15:51:33

最小二乘法的概率解释的相关文章

机器学习(3)之最小二乘法的概率解释

机器学习(3)之最小二乘法的概率解释在前面梯度下降以及正规方程组求解最优解参数Θ时,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正y值之间面积的平方最小化? 我们提供一组假设,证明在这组假设下最小二乘是有意义的,但是这组假设不唯一,还有其他很多方法可以证明其有意义. (1) 假设1: 假设输入与输出为线性函数关系,表示为: 其中,为误差项,这个参数可以理解为对未建模效应的捕获,如果还有其他特征,这个误差项表示了一种我们没有捕获的特征,或者看成一种随机的噪声. 假设服从

最小二乘法的概率解释-最大似然方法

对于常规线性模型来说,其精确的模型可定义如下: 其中,模型中的第一部分描述了通过待预测值随自变量的变化趋势,而第二部分描述了线性模型不能建模的误差项. 最小二乘方法采用损失代价和最小来获得线性模型的参数.在此,我们通过假设误差项的概率分布,并用最大似然估计的方法寻求模型参数Θ. 在此,我们假设误差项ε是独立同分布的,并且符合均值为0的高斯分布,即: 则,待预测值也服从均值为的高斯分布: 上式可理解为当给定X,Θ时,待预测值y的概率分布,我们同时也可以给出Θ的似然函数: 由于不同观测点的误差项服从

Stanford大学机器学习公开课（三）：局部加权回归、最小二乘的概率解释、逻辑回归、感知器算法

(一)局部加权回归通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的过拟合(overfitting),不符合数据真实的模型.如下图的右图. 下面来讲一种非参数学习方法——局部加权回归(LWR).为什么局部加权回归叫做非参数学习方法呢?首先,参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖

【机器学习详解】线性回归、梯度下降、最小二乘的几何和概率解释

线性回归即线性拟合,给定N个样本数据(x1,y1),(x2,y2)....(xN,yN)其中xi为输入向量,yi表示目标值,即想要预测的值.采用曲线拟合方式,找到最佳的函数曲线来逼近原始数据.通过使得代价函数最小来决定函数参数值. 采用斯坦福大学公开课的例子:假如一套房子的价格只考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定,现在拿到手有m个样本,如下图所示.此例中,输入x=(x1,x2)为2维向量,分别对应房屋面积和卧室数目,y对应价格.现在想根据上述样本

【机器学习具体解释】线性回归、梯度下降、最小二乘的几何和概率解释

线性回归即线性拟合,给定N个样本数据(x1,y1),(x2,y2)....(xN,yN)当中xi为输入向量,yi表示目标值,即想要预測的值.採用曲线拟合方式,找到最佳的函数曲线来逼近原始数据.通过使得代价函数最小来决定函数參数值. 採用斯坦福大学公开课的样例:假如一套房子的价格仅仅考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定,如今拿到手有m个样本,例如以下图所看到的. 此例中.输入x=(x1,x2)为2维向量.分别相应房屋面积和卧室数目,y相应价格.如今想

【CS229笔记一】监督学习，线性回归，LMS算法，正态方程，概率解释和局部加权线性回归

监督学习对于一个房价预测系统,给出房间的面积和价格,以面积和价格作坐标轴,绘出各个点. 定义符号: \(x_{(i)}\)表示一个输入特征\(x\). \(y_{(i)}\)表示一个输出目标\(y\). \((x_{(i)},y_{(i)})\)表示一个训练样本. \(\left\{(x_{(i)},y_{(i)});i=1,\dots,m\right\}\)代表m个样本,也称为训练集. 上标\((i)\)代表样本在训练集中的索引. \(\mathcal{X}\)代表输入值的空间,\(\mat

最小二乘法的推导证明

1.附加题:推导线性最小二乘法过程上述式子求解b 时最后一步用到求和性质,事实上同理可证分子部分,具体请参考<计量经济学导论(第四版)Introductory Econometrics A Modern Approach Fourth Edition · 杰弗里·M·伍德里奇(Jeffrey M. Wooldridge)著>中的附录A 基本数学工具 . 2.赛马问题问:36匹马,6条跑道,无计时器,最少几次比赛可以选出前3名? 答案是8次,思路如下: (1)把36匹马分成6组,分别进行6

Partial least squares regression(偏最小二乘法回归)

偏最小二乘法(PLS)是近年来发展起来的一种新的多元统计分析 http://en.wikipedia.org/wiki/Partial_least_squares_regression Partial least squares regression(偏最小二乘法回归),布布扣,bubuko.com

基于移动最小二乘法(MLS) 的三维数据拟合

项目介绍: 1. 需要预测的数据: 2. 采用的权函数以及形函数: 3. 求解的形函数曲线结果: 4. 算法流程图: 5. 预测结果: x=[234 255 255 76 12];y=[162 242 176 54 55];z=[199 200 57 50 73]; 对应的预测结果为: >> MLS_Output Esti_ux = 53.3651 73.8599 54.2216 5.9668 9.0063 Esti_uy = 43.9818 77.5332 48.3499 5.2517 11

猜你喜欢

HTML学习基础教程

详细学习教程请看上面摘要中的网址.下面简单入门一下: 1.什么是HTML? HTML 指的是超文本标记语言 (Hyper Text Markup Language). 2.HTML的作用? 简单来说就 ...

php面试题汇总一(基础篇附答案)

一份不错的php面试题,附答案,有准备换工作的同学可以参考一下. 1:使用五种以上方式获取一个文件的扩展名要求:dir/upload.image.jpg,找出 .jpg 或者 jpg ,必须使用PHP ...

【Binary Tree Post order Traversal】cpp

题目: Given a binary tree, return the postorder traversal of its nodes' values. For example:Given bina ...

maven相关

实在太多了,发链接吧. Maven常见问题 Maven常用插件

php面向对象的定义介绍

PHP面向对象OOP(Object Oriented Programming),是一种计算机编程架构. 首先,我们要理解的是PHP面向对象中的的类class,对象以及构造函数与析构函数. 1.类cla ...

给 magento 后台订单加入详情预览

一. 后台订单列表grid页二. 后台订单View页 1) 加入图片预览. 修改 app/design/adminhtml/default/default/template/sales/order ...

web标签语义化

一.web标签的含义:web标签的语义化是指用语义恰当的标签,使页面有良好的结构,页面元素有含义,能够让人和搜索引擎都容易理解.二.html布局的三种方式:1.自然布局.没有任何修饰的布局是自动靠左的 ...

Kth Smallest Element in Sorted Matrix

1 public class Solution { 2 public int kthSmallest(int[][] matrix, int k) { 3 if (matrix.length == 0 ...

课堂笔记----悬浮动态分层导航

1.首先在<head>里面引用一个JQUERY的文件以用来制作鼠标点击动画效果(从网站上下载即可) 1 <script language="javascript" ...

Win32 Windows编程三

一.NMAKE 和 Makefile 1.1 NMAKE - 命令解释器, 根据Makefile文件中定义的脚本,完成项目的编译等操作 1.2 Makefile - 定义编译.连接等脚本语言 1.3 ...

10月27日Java整理

实验一:凯撒密码 import java.util.Scanner; //zhanxinwu,October,25,2016 public class Addmi { public static vo ...

Java学习之Comparable与Comparator的区别

Comparable & Comparator 都是用来实现集合中元素的比较.排序的,只是 Comparable 是在集合内部定义的方法实现的排序,Comparator 是在集合外部实现的排序 ...

java多线程一览

线程概述: 多线程的目的,不是提高程序的执行速度,而是提高程序的使用率(能抢到CPU的可能比较大). 因为线程是CPU调度的基本单位,所以,当一个程序的线程较多的时候就更容易抢到cpu的资源进程: ...

SCRIPT5011:不能执行已释放Script的代码

环境:win7 64位 IE9 错误:SCRIPT5011:不能执行已释放Script的代码. 现象:在父窗体的close()中调用嵌套的iframe页面的js方法返回一个对象时抛此异常. 原因:在一 ...

vim设置为indent折叠以后，每次打开文件时代码处于折叠状态，能改变吗？

vim设置为indent折叠以后,每次打开文件时代码处于折叠状态.即使这次编辑的时候把折叠展开,保存关闭文件,重新打开,所有的代码都又折叠起来了. 请问有没有默认不折叠的方法? 是否有可以一次展开所有 ...

搜索（1）：符号表

符号表的概念符号表的顺序搜索 1 基于有序数组的符号表 2 基于无序链表的符号表参考资料 1. 符号表的概念搜索:我们把处理的数据划分为记录或数据项(item),每个数据项都有一个用于搜索的关键 ...

JavaWeb基础第一天之HTML

一.html介绍 1.什么是HTML? 超文本标记语言: 超文本:比普通文本功能更加强大标记语言:使用一组标签对内容进行描述的一门语言,它不是编程语言! 2.HTML语言能干什么? HTML语言用于 ...

Fastclick 导致click事件触发两次的问题，fastclickclick

文章原文csdn链接:www.foreverpx.cn 我在移动web上使用Fastclick这个库去解决300ms延迟问题,但是在安卓4.2下的webview中引发了另一个比较奇怪的bug. 在A页 ...

BZOJ_1566

这道题主要是转换模型,我们可以认为这是两个人X,Y在玩取珠子游戏,设X最终取出珠子的方案是PiX,Y的方案是PiY,那么原来求得∑ai^2就是∑ PiX ==PiY,因为对于i类方案,X一共有ai种方 ...

Android中的跨进程调用技术AIDL

什么是AIDL Android系统中的进程之间不能共享内存,因此,需要提供一些机制在不同进程之间进行数据通信. 为了使其他的应用程序也可以访问本应用程序提供的服务,Android系统采用了远程过程调用 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 11 q. 0.043 s.