容量、欠拟合、过拟合和正则化

1、训练误差和泛化误差

机器学习的主要挑战是我们的模型要在未观测数据上表现良好,而不仅仅是在训练数据上表现良好。在未观测数据上表现良好称为泛化(generalization)。
通常情况下,我们在训练数据上训练模型时会计算一些被称为训练误差(training error)的误差度量,目标是降低训练误差。由于模型要投入到实际使用,所以我们希望泛化误差(generalization,或者被称为测试误差)也尽可能的小。泛化误差被定义为新输入的误差期望。
如果训练数据和测试数据是同分布的,我们将这个共享的潜在分布称为数据生成分布,并且数据集中的样本是相互独立的话,那么我们就可以在数学上研究训练误差和测试误差之间的关系。
我们能观察到训练误差和测试误差之间的直接联系是,随机模型训练误差的期望和该模型测试误差的期望是一样的。假设我们有概率分布 \(p(x,y)\),从中重复采样生成训练集和测试集。对于某个固定的 \(ω\),训练集误差的期望恰好和测试集误差的期望一样,这是因为这两个期望的计算都使用了相同的数据集生成过程。这两种情况的唯一区别是数据集的名字不同。
当然,当我们使用机器学习算法时,我们不会提前固定参数,然后采样得到两个数据集。我们采样得到训练集,然后挑选参数去降低训练集误差,然后采样得到测试集。在这个过程中,测试误差期望会大于或等于训练误差期望。我们可以从以下两个方面优化机器学习算法的效果:

  1. 降低训练误差
  2. 缩小训练误差和泛化误差的差距

这两个方面对应着机器学习的两个主要挑战:欠拟合(underfitting)和过拟合(overfitting)。

2、欠拟合、过拟合和容量

欠拟合是指模型不能在训练集上获得足够小的误差(训练误差太大),过拟合是指训练误差和泛化误差的差距太大。举个例子,假如我们从二次函数中随机取一些点,然后使用线性函数,二次函数和9阶多项式去拟合这些点,如下图:

我们可以看到线性函数会导致欠拟合,9阶函数会导致过拟合(9阶函数虽然完全拟合了这些点,但它只适用于我们取的这些点,如果在同一个二次函数上取一个新点,那么训练误差和泛化误差之间的差距会非常大),2次函数在欠拟合和过拟合之间达到了平衡。
通过控制模型的容量(capacity),我们可以控制模型是否偏向于欠拟合或者过拟合。所谓模型的容量是指其拟合各种函数的能力(可以表示多少种曲线)。容量低的模型可能很难拟合训练集,比如上例中的用线性函数去拟合二次函数。容量高的模型可能会导致过拟合,因为记住了不适用于训练集和测试集的特征(训练使用的特征太多)。
我们可以通过选择假设空间(hypothesis space)来控制模型的容量。所谓假设空间,就是学习算法可以选择为解决方案的函数集。例如,线性回归将所有关于其输入的线性函数作为假设空间。广义线性回归的假设空间除了线性函数外,还包括多项式函数,这就增加了模型的容量。模型的容量规定了机器学习算法可以从假设空间选择哪些函数族来拟合数据,这被称为模型的表示容量(representational capacity)。而事实上,学习算法一般情况下并不能找到最优的函数,而是找到一个可以大大降低训练误差的函数,这意味着学习算法的有效容量(e?ective capacity)可能小于表示容量。
当机器学习算法的容量符合任务的复杂度和训练数据的数据量时,算法一般会达到最佳效果,容量不足不能够解决复杂任务(欠拟合),容量高能够解决复杂任务,但容量过高时,就会发生过拟合,就像上面的例子一样。
模型容量与训练误差和泛化误差有一定的关系。通常,当模型容量上升时,训练误差会降低,直至降低至最小可能误差(最小误差存在的话),而泛化误差是关于模型容量的一个U型函数,如下图

有一点需要注意,我们并不要求训练出的模型在所有的输入数据上表现良好,而只需要在满足特定分布的数据上表现良好就行,这被称为机器学习的没有免费午餐定理

3、正则化

到现在为止,我们通过改变学习算法可选的函数来改变模型的容量进而改变机器学习算法。比如在线性回归中,我们可以增加或减少多项式的次数来改变模型的容量。但算法的效果不仅受影响于假设空间的函数数量,也取决于这些函数的具体形式。在线性函数中,对于输入和输出确实接近线性的问题,使用线性函数是很合理的,但如果输入和输出实际满足非线性函数\(y=sin(x)\),那么我们用线性函数x取拟合sin(x)的效果不会好。因此我们可以使用两种方法来控制算法的性能:

  1. 可以使用的函数种类
  2. 函数数量

例如,我们可以加入权重衰减(weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化均方误差和正则项的和\(J(ω)\),其偏好于平方\(L^2\)范数较小的权重。具体如下:

其中\(λ\)是提前挑选好的值,用来表示我们偏好范数较小权重的程度。当\(λ=0\)时,我们没有任何偏好。越大的\(λ\)偏好范数越小的权重。最小化 \(J(ω)\) 可以看作是拟合训练数据和偏好小权重范数之间的权衡。这会使得解决方案的斜率较小,或是将权重放在较少的特征上。我们可以训练具有不同 \(λ\) 值的高次多项式回归模型,来举例说明如何通过权重衰减控制模型欠拟合或过拟合的趋势。

图5.2就是第2节的第一个图。
更一般地,正则化一个学习函数\(f(x;θ)\),我们可以给代价函数添加被称为正则化项(regularizer)的惩罚。在上面的权重衰减例子中,正则化项\(Ω(ω)=ω^Tω\)。
在我们权重衰减的示例中,通过在最小化的目标中额外增加一项,我们明确地表示了偏好权重较小的线性函数。有很多其他方法隐式或显式地表示对不同解的偏好。总而言之,这些不同的方法都被称为正则化(regularization)。正则化是指我们修改学习算法,使其降低泛化误差而非训练误差
没有免费午餐定理已经清楚地阐述了没有最优的学习算法,特别地,没有最优的正则化形式。反之,我们必须挑选一个非常适合于我们所要解决的任务的正则形式。

原文地址:https://www.cnblogs.com/sench/p/9512860.html

时间: 2024-10-09 22:32:15

容量、欠拟合、过拟合和正则化的相关文章

欠拟合和过拟合的一般解决方法

简单来说,欠拟合是指模型在训练集.验证集和测试集上均表现不佳的情况:过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差.欠拟合和过拟合一直是机器学习训练中的难题,在进行模型训练的时候往往要对这二者进行权衡,使得模型不仅在训练集上表现良好,在验证集以及测试集上也要有出色的预测能力.下面对解决欠拟合和过拟合的一般方法作一总结,说明大致的处理方向,具体应用还得结合实际的任务.数据和算法模型等. 解决欠拟合(高偏差)的方法 1.模型复杂化 对同一个算法复杂化.例如回归

机器学习之欠拟合和过拟合(一)

1.欠拟合(underfitting)与过拟合(overfitting) 在机器学习中,我们的主要思想是通过对数据集的学习来生成我们的假设模型.在对数据集进行拟合的过程中,我们可能会遇到欠拟合和过拟合的问题.以身高预测的例子为例,这里给出7-18岁男生的身高标准(数据来源:7 岁-18 岁儿童青少年身高发育等级评价),如图1: 将中位数随年龄的变化绘制成散点图,如图2: 由图2中的散点可知,先开始身高随年龄几乎成一条直线关系,后来增长率逐渐下降.如果我们采用线性函数取拟合,这显然是不合理的(线性

机器学习(ML)七之模型选择、欠拟合和过拟合

训练误差和泛化误差 需要区分训练误差(training error)和泛化误差(generalization error).前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似.计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数. 直观地解释训练误差和泛化误差这两个概念.训练误差可以认为是做往年高考试题(训练题)时的错误率,泛化误差则可以通过真正参加高

动手深度学习12- 模型选择,欠拟合和过拟合

模型选择.欠拟合和过拟合 训练误差和泛化误差 模型选择 K折交叉验证 欠拟合和过拟合 模型复杂度 训练数据集大小 多项式函数拟合实验 定义.训练和测试模型 欠拟合 过拟合 小结 模型选择.欠拟合和过拟合 前几节给予Fashion_MNIST数据集的实验中,我们评价了机器学习模型在训练集合测试集上的表现.通常得到的结果都是训练数据集上更准确时,它在测试集上表现不一定更好,这就涉及到了模型的选择以及拟合程度的选择. 训练误差和泛化误差 训练误差 是指模型在训练数据集上表现出来的误差 泛化误差 是指模

机器学习之路: python线性回归 过拟合 L1与L2正则化

git:https://github.com/linyi0604/MachineLearning 正则化: 提高模型在未知数据上的泛化能力 避免参数过拟合正则化常用的方法: 在目标函数上增加对参数的惩罚项 削减某一参数对结果的影响力度 L1正则化:lasso 在线性回归的目标函数后面加上L1范数向量惩罚项. f = w * x^n + b + k * ||w||1 x为输入的样本特征 w为学习到的每个特征的参数 n为次数 b为偏置.截距 ||w||1 为 特征参数的L1范数,作为惩罚向量 k 为

机器学习过程中欠拟合和过拟合的诊断及解决方法

1.Diagnosing bias vs. variance 2.Regularization and bias/variance 3.Learning curves 4.Deciding what to try next 原文地址:https://www.cnblogs.com/CoolJayson/p/9704385.html

机器学习之拟合和过拟合问题

过拟合:当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了,通俗点就是:模型在训练集中测试的准确度远远高于在测试集中的准确度. 过拟合问题通常发生在变量特征过多的时候.这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于0或者就为0,使其拟合只局限于训练样本中,无法很好预测其他新的样本. 欠拟合:在训练数据和未知数据上表现都很差 解决过拟合问题的方法主要有: 1. 减少特征数量,通过人工或者算法选择哪些特征有用保留,哪

数据趋势拟合--线性拟合

lm函数,可以用一种线程关系建立两个数据之间的发展趋势,也就是线程拟合,并用predict函数将这种发展趋势的结果用于数据的预测. fr = lm(Height~Weight,data=hw) coef(fr) 建立基于Weight来预测Height的线程拟合.由截距和斜率定义的一条直线.可视化如下图示: library("ggplot2") ggplot(heights.weights,aes(x=Height,y=Weight)) + geom_point()+geom_smoot

小白学习之pytorch框架(6)-模型选择(K折交叉验证)、欠拟合、过拟合(权重衰减法(=L2范数正则化)、丢弃法)、正向传播、反向传播

下面要说的基本都是<动手学深度学习>这本花书上的内容,图也采用的书上的 首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) 模型选择 验证数据集(validation data set),又叫验证集(validation set),指用于模型选择的在train set和test set之外预留的一小部分数据集 若训练数据不够时,预留验证集也是一种luxury.常采用的方法为K折交叉验证.原理为:把train set分割成k个不重合