在线性回归中,由于对参数个数选择的问题是在问题求解之前已经确定好的,因此参数的个数不能很好的确定,如果参数个数过少可能拟合度不好,产生欠拟合(underfitting)问题,或者参数过多,使得函数过于复杂产生过拟合问题(overfitting)。因此本节介绍的局部线性回归(LWR)可以减少这样的风险。
欠拟合与过拟合
首先看下面的图
对于图中的一系列样本点,当我们采用y=θ0+θ1x形式的时候,我们可能产生最左边图形式的拟合曲线;如果我们采用y=θ0+θ1x+θ2x2时候,我们就可以产生中间的拟合曲线;如果采用形式,便会产生最右边的拟合曲线。从三张图中我们可以看出来,第一条曲线存在欠拟合问题,第三条的曲线存在过拟合问题。
局部权重线性回归(Locally weighted linear regression)
在基本的线性回归
问题中,首先我们构造出预测函数h(x),然后变化参数θ使得误差函数最小化,一旦θ确定,以后不会改变,所有的预测值都会使用着一个参数:
相比之下,局部权重线性回归
方法执行如下的算法:
x代表需要预测的值的输入,x(i)表示的是训练的样本的输入值。从w(i)的表达式我们可以看出,(x(i)?x)2可以理解成训练值与预测值之间的距离,当距离越大w≈0,反之,距离越小,w≈1。因此,当距离需要计算的x很远的训练样本值会在最小化时候变为0,而只使用x周围的局部点预测线性函数。如下图
w中的τ
称为带宽(bandwidth)参数,可以控制x周围的概念,即控制距离x多远可以参与线性函数的估计,τ
越大,参与的点越多,反之,参与的点越少。
由于局部权重线性回归方法每个预测每一个点时候都需要重新计算一次
θ的值,因此,算法费时间复杂度会很高,是一种non-parametric算法。前面的基本线性回归是一种parametric学习算法。
个人博客:http://www.houlaizhexq.com
houlaizhexq.github.io
局部权重线性回归(Locally weighted linear regression),布布扣,bubuko.com
时间: 2024-10-29 10:28:38