1. 欠拟合与过拟合概念

欠拟合与过拟合概念
1. 欠拟合与过拟合概念

图3-1 欠拟合与过拟合概念演示

通常，你选择让交给学习算法处理的特征的方式对算法的工作过程有很大影响。如图3-1中左图所示，采用了y = θ₀ + θ₁x的假设来建立模型，我们发现较少的特征并不能很好的拟合数据，这种情况称之为欠拟合(underfitting)。而如果我们采用了y = θ₀+ θ₁x+ θ₂x₂的假设来建立模型，发现能够非常好的拟合数据(如中图所示)；此外，如果我们采用了y = θ₀+ θ₁x+ θ₂x₂+ θ₃x₃+ θ₄x₄+ θ₅x₅，发现较多的特征导致了所有的训练数据都被完美的拟合上了，这种情况称之为过拟合(overfitting)。

这里，我们稍微谈一下过拟合问题，过拟合的标准定义(来自Mitchell的机器学习)标准定义：给定一个假设空间H，一个假设h属于H，如果存在其他的假设h‘属于H,使得在训练样例上h的错误率比h‘小，但在整个实例分布上h‘比h的错误率小，那么就说假设h过度拟合训练数据。过拟合问题往往是由于训练数据少(无法覆盖所有的特征学习，换句话也可以认为是特征太多)等原因造成的。在以后的课程会具体讲解。

对于此类学习问题，一般使用特征选择算法(有一讲专门讲)或非参数学习算法，下面将要降到的局部加权线性回归就是属于该方法，以此缓解对于特征选取的需求。

局部加权线性回归

局部加权线性回归(locally weighted linear regression)属于非参数学习算法的一种，也称作Loess。

对于原始的回归分析，我们基本的算法思想是：

1) 寻找合适的θ使得
最小；2) 预测输出。

而对于局部加权线性回归算法的基本思想是：

1) 寻找合适的θ使得
最小；2) 预测输出。

这里，局部加权线性回归与原始回归分析不同在于，多了权重w_i，该值是正的。对于特点的点，如果权重w较大，那么我们选择合适的θ使得最小；如果权重w较小，那么误差的平方方在拟合过程中将会被忽略掉。换言之，对于局部加权回归，当要处理x时，会检查数据集合，并且只考虑位于x周围的固定区域内的数据点(较远点不影响因权重较低而被忽略)，对这个区域内的点做线性回归，拟合出一条直线，根据这条拟合直线对x的输出，作为算法返回的结果。

一个标准的且常用的权重选择如下：

w_i = exp(-)

需要注意，这里的x是我们要预测的输入，而x_i是训练样本数据。从公式看，离x越近的点，权重越大，而这里的权重公式虽然与高斯分布很像，但是没有任何关系，当然用户可以选择不同的函数作为权重函数。而τ 决定了各个点权重随距离下降的速度，称之为波长。τ越大，即波长越大，权重下降速度越慢。如何选择合适的τ值，将会在模型选择一讲讲述。另外需要注意的是，如果x是多维特征数据的时候，那么权重是多维特征参与计算后的结果(结果为一维)，即w(i) = exp(?(x(i)?x)^T (x(i)?x)/())。(i表示样本下标，j表示特征下标)

参数学习算法(parametric learning algorithm)定义：参数学习算法是一类有固定数目参数，以用来进行数据拟合的算法。设该固定的参数集合为。线性回归即使参数学习算法的一个例子。非参数学习算法(Non-parametric learning algorithm)定义：一个参数数量会随m(训练集大小)增长的算法。通常定义为参数数量虽m线性增长。换句话说，就是算法所需要的东西会随着训练集合线性增长，算法的维持是基于整个训练集合的，即使是在学习以后。

由于每次进行预测都要根据训练集拟合曲线，如果训练样本非常大，那么该方法可能是代价较大，可以参考Andrew Moore的KD-tree方法来思考解决。此外，局部加权线性回归依旧无法避免欠拟合和过拟合的问题。