从统计看机器学习(一) 一元线性回归

  从统计学的角度来看,机器学习大多的方法是统计学中分类与回归的方法向工程领域的推广。

  “回归”(Regression)一词的滥觞是英国科学家Francis Galton(1822-1911)在1886年的论文[1]研究孩子身高与父母身高之间的关系。观察1087对夫妇后,得出成年儿子身高=33.73+0.516*父母平均身高(以英寸为单位).他发现孩子的身高与父母的身高相比更加温和:如果父母均非常高,那么孩子身高更倾向于很高但比父母矮;如果父母均非常矮,那么孩子身高更倾向于很矮但比父母高。这个发现被他称作"回归到均值"(regression to the mean).这也说明了的回归模型是软模型,回归模型更多的刻画了事物间的相关性而非因果性,它并不像物理模型或是一些函数(例如开普勒行星运动定律)那样严格苛刻。

1.从一元线性回归说起

  我们判断体重是否合理时,却要先量量自己的身高。因为无论在生理角度还是审美角度,体重与身高是有关系的。通常可认为人体是均匀的,即身高与体重间的关系是线性的,那么我们无非希望建立一个一元线性回归模型

y=β01x+ε,

x是当前的身高、ε是误差项,β0与β1是两个常数,通常认为每个身高下的ε都是独立的,且服从均值为0,方差为σ2的正态分布,记作ε-i.i.d~N(0,σ2).由于存在误差,当前身高x下的体重y,记作y|x,同样存在y|x~N(β01x,σ2),因此我们将自己的身高x带入,就可以得到该身高下体重均值,并且有99.74%的把握认为该身高下,体重应该在(β01x-3σ,β01x+3σ)之间。当然,如果偏离了这个区间,体重就是不标准的,但是,这也要求σ的值不能太大。

  一元线性回归就是要通过样本数据估计出β0与β1这两个常数的取值。当然,这是个仁者见仁、智者见智的问题,体重偏瘦的人为了保持身材,不希望有胖子的数据干扰模型;胖子会为了控制体重仅选择身高-体重最标准的人数据。当然,考虑女生身高与体重关系时选择男生的数据也是不合理的。我们依据自己的标准,选择不同身高下n个人的身高-体重数据(x1, y1), (x2, y2) ,…, (xn, yn),用最小二乘法得到β0、β1的估计值:

由于样本数据是我们按照规则挑选出来的,可以认为几乎不存在噪声数据,即σ的值不会太大,因此,当前身高下标准的体重范围也会缩小,使得模型更加精准有效。这样使用最小二乘法得到经验回归方程,即得到这样的一条直线

是安全的。经验回归方程对样本中的任意的身高xi的都能给出体重的估计值,体重的真实值与估计值的差称为真实的残差

由于残差存在正负,为了累计残差的效果,将全部样本点的残差进行平方再求和就得到了残差平方和。最小二乘法就是求解让残差平方和达到最小的优化问题。最小二乘法是让经验回归模型对全体样本的冲突达到最小,即使经验回归模型不经过样本中的任意一个点,但它会经过样本的均值点

2.模型参数的估计过程

3.最小二乘估计的性质

首先,最小二乘估计是线性的。β01的估计值是y1,y2,…,yn的线性组合。同时,该估计是无偏的,即β01的估计值的期望分别与β01相同。

考虑模型是否有效,我们就要求估计值的方差

综上,对于给定的x0,y0的估计值服从与以下正态分布

  这说明了在经验回归模型中,不同xi的估计值是无偏的,但方差大小一般不同。最小二乘法是唯一方差最小的无偏估计,也就是说,在全体的无偏模型中,最小二乘法的估计效果是最好的。从y0的估计值分布中我们可以看出,如果想减小模型的方差,就要扩大样本容量,即增大n的值。同时,尽可能使样本的分散以增大Lxx.回到上面的体重-身高建模问题,如果选择不同身高、相同性别且体重-身高比例均为标准的人,那么运用最小二乘法很容易估计出该性别下最标准体重-身高的线性关系。

[1]Regression towards mediocrity in hereditary stature. Francis Galton, Journal of the Anthropological Institute, 1886, 15: 246 – 263

时间: 2024-10-10 10:57:23

从统计看机器学习(一) 一元线性回归的相关文章

机器学习之一元线性回归模型

一元线性回归模型 样本数量m            输入变量x               输出变量y               训练样本(x,y)                   第i个训练样本(,) 假设函数:        模型参数 代价函数: 优化目标: 算法: 1.梯度下降法 具体解法: 2.正规方程法 原文地址:https://www.cnblogs.com/yuqiujie/p/8893660.html

从统计看机器学习(二) 多重共线性的一些思考

从一个生活中的现象说起:我们在装机时,不会安装一款以上的解压软件,也希望被莫名其妙地安装额外的管家.与此相反,我们会安装多款播放器.那么,这是为什么呢?当然,也可以思考这样一个问题,好评的软件那么多,硬盘又足够大,为什么不都装上?看到第二个问题,思路似乎清晰了.很简单,解压软件.管家的功能大同小异,且都免费,甚至不需要考虑到底用哪个,似乎只要有那么一个就好了.但是,播放器有单机.网络之分.即使均为网络播放器,仍会搜索到不同资源...即使播放器之间看似相同. 在1996年,还在读书的Tim C.

机器学习入门:线性回归及梯度下降

机器学习入门:线性回归及梯度下降 本文会讲到: (1)线性回归的定义 (2)单变量线性回归 (3)cost function:评价线性回归是否拟合训练集的方法 (4)梯度下降:解决线性回归的方法之一 (5)feature scaling:加快梯度下降执行速度的方法 (6)多变量线性回归   Linear Regression 注意一句话:多变量线性回归之前必须要Feature Scaling! 方法:线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个

R语言解读一元线性回归模型

前言 在我们的日常生活中,存在大量的具有相关性的事件,比如大气压和海拔高度,海拔越高大气压强越小:人的身高和体重,普遍来看越高的人体重也越重.还有一些可能存在相关性的事件,比如知识水平越高的人,收入水平越高:市场化的国家经济越好,则货币越强势,反而全球经济危机,黄金等避险资产越走强. 如果我们要研究这些事件,找到不同变量之间的关系,我们就会用到回归分析.一元线性回归分析是处理两个变量之间关系的最简单模型,是两个变量之间的线性相关关系.让我们一起发现生活中的规律吧. 由于本文为非统计的专业文章,所

一元线性回归

1.概念 一元线性回归是最简单的一种模型,但应用广泛,比如简单地预测商品价格.成本评估等,都可以用一元线性模型,本节主要讲解scikit-learn一元线性回归的使用以及作图说明. y=f(x)叫做一元函数,回归的意思就是根据已知数据复原某些值,线性回归(regression)就是用线性的模型做回归复原. 那么一元线性回归就是:已知一批(x,y)值来复原另外未知的值. 比如:告诉你(1,1),(2,2),(3,3),那么问你(4,?)是多少,很容易复原出来(4,4),这就是一元线性回归问题的求解

一元线性回归模型与最小二乘法及其C++实现

原文:http://blog.csdn.net/qll125596718/article/details/8248249 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归.回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.对于二维空间线性是一条直线:对于三维空间线性是一

机器学习(2)之线性回归

机器学习(2)之线性回归 上一章介绍了梯度下降算法的线性回归,本章将介绍另外一种线性回归,它是利用矩阵求导的方式来实现梯度下降算法一样的效果. 1. 矩阵的求导 首先定义表示m×n的矩阵,那么对该矩阵进行求导可以用下式表示,可以看出求导后的矩阵仍然为m×n 这里要用到矩阵迹的特性,trace. 对于一个n阶的方阵(n×n),它的迹(tr)为对角线元素之和: 1. 对于一个实数,它的迹即为它本身 tr a = a 2. 如果AB是一个方阵,那么 tr AB = tr BA 3. 由此可推导出 tr

R语言——一元线性回归

1 一元线性回归 高尔顿被誉为现代回归的创始人,"回归效应"的发现源于高尔顿的豌豆遗传试验.在这个试验中,高尔顿发现,并非尺寸大的豌豆,其后代尺寸也大,尺寸小的豌豆,其后代尺寸也小.而是具有一种不同的趋势,即尺寸大的豌豆趋向于得到尺寸更小的子代,而尺寸小的豌豆趋向于得到尺寸更大的后代.高尔顿把这一现象称为"返祖",后来又称为"向平均值回归"."回归效应"的应用非常广泛,生活中随处可见这样的例子. 1.1 变量之间的关系的度量

matlab实现一元线性回归和多元线性回归

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归.事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际. 在实际经济问题中,一个变量往往受到多个变量的影响.例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有财富.物价水平.金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个.这样的模型被称为多元线性回归模型. 多元线性回归模型的一般表现形式为 Yi=β0+β1X1i+β