机器学习(ML)七之模型选择、欠拟合和过拟合

训练误差和泛化误差

需要区分训练误差(training error)和泛化误差(generalization error)。前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。

直观地解释训练误差和泛化误差这两个概念。训练误差可以认为是做往年高考试题(训练题)时的错误率,泛化误差则可以通过真正参加高考(测试题)时的答题错误率来近似。假设训练题和测试题都随机采样于一个未知的依照相同考纲的巨大试题库。如果让一名未学习中学知识的小学生去答题,那么测试题和训练题的答题错误率可能很相近。但如果换成一名反复练习训练题的高三备考生答题,即使在训练题上做到了错误率为0,也不代表真实的高考成绩会如此。

机器学习里,我们通常假设训练数据集(训练题)和测试数据集(测试题)里的每一个样本都是从同一个概率分布中相互独立地生成的。基于该独立同分布假设,给定任意一个机器学习模型(含参数),它的训练误差的期望和泛化误差都是一样的。例如,如果我们将模型参数设成随机值(小学生),那么训练误差和泛化误差会非常相近。

模型的参数是通过在训练数据集上训练模型而学习出的,参数的选择依据了最小化训练误差(高三备考生)。所以,训练误差的期望小于或等于泛化误差。也就是说,一般情况下,由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或等于在测试数据集上的表现。由于无法从训练误差估计泛化误差,一味地降低训练误差并不意味着泛化误差一定会降低。

机器学习模型应关注降低泛化误差。

模型选择

在机器学习中,通常需要评估若干候选模型的表现并从中选择模型。这一过程称为模型选择(model selection)。可供选择的候选模型可以是有着不同超参数的同类模型。以多层感知机为例,我们可以选择隐藏层的个数,以及每个隐藏层中隐藏单元个数和激活函数。为了得到有效的模型,我们通常要在模型选择上下一番功夫。下面,我们来描述模型选择中经常使用的验证数据集(validation data set)。

验证数据集

测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型,如调参。由于无法从训练误差估计泛化误差,因此也不应只依赖训练数据选择模型。鉴于此,我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集,简称验证集(validation set)。例如,我们可以从给定的训练集中随机选取一小部分作为验证集,而将剩余部分作为真正的训练集。

然而在实际应用中,由于数据不容易获取,测试数据极少只使用一次就丢弃。因此,实践中验证数据集和测试数据集的界限可能比较模糊。从严格意义上讲,除非明确说明,否则中实验所使用的测试集应为验证集,实验报告的测试结果(如测试准确率)应为验证结果(如验证准确率)。

K 折交叉验证

由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证(K-fold cross-validation)。K折交叉验证中,我们把原始训练数据集分割成K个不重合的子数据集,然后我们做K次模型训练和验证。每一次,我们使用一个子数据集验证模型,并使用其他K-1个子数据集来训练模型。在这K次训练和验证中,每次用来验证模型的子数据集都不同。最后,我们对这K次训练误差和验证误差分别求平均。

欠拟合和过拟合

模型训练中经常出现的两类典型问题:

1、模型无法得到较低的训练误差,一现象称作欠拟合(underfitting);

2、模型的训练误差远小于它在测试数据集上的误差,该现象为过拟合(overfitting)。

在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数据集大小。

模型复杂度

为了解释模型复杂度,以多项式函数拟合为例。给定一个由标量数据特征x和对应的标量标签y组成的训练数据集,多项式函数拟合的目标是找一个K阶多项式函数

来近似y。在上式中,wk是模型的权重参数,b是偏差参数。与线性回归相同,多项式函数拟合也使用平方损失函数。特别地,一阶多项式函数拟合又叫线性函数拟合。

因为高阶多项式函数模型参数更多,模型函数的选择空间更大,所以高阶多项式函数比低阶多项式函数的复杂度更高。因此,高阶多项式函数比低阶多项式函数更容易在相同的训练数据集上得到更低的训练误差。给定训练数据集,模型复杂度和误差之间的关系通常如下图所示。给定训练数据集,如果模型的复杂度过低,很容易出现欠拟合;如果模型复杂度过高,很容易出现过拟合。应对欠拟合和过拟合的一个办法是针对数据集选择合适复杂度的模型。

训练数据集大小

影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说,如果训练数据集中样本数过少,特别是比模型参数数量(按元素计)更少时,过拟合更容易发生。此外,泛化误差不会随训练数据集里样本数量增加而增大。因此,在计算资源允许的范围之内,我们通常希望训练数据集大一些,特别是在模型复杂度较高时,例如层数较多的深度学习模型。

权重衰减

模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。应对过拟合问题的常用方法:权重衰减(weight decay)。

方法

权重衰减等价于L2范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。我们先描述L2范数正则化,再解释它为何又称权重衰减。

L2范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以“线性回归”中的线性回归损失函数

丢弃法

除了权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverted dropout)。

方法

“多层感知机”描述了一个单隐藏层的多层感知机。其中输入个数为4,隐藏单元个数为5,且隐藏单元hihi(i=1,…,5i=1,…,5)的计算表达式为

多项式函数拟合实验代码

  1 #!/usr/bin/env python
  2 # coding: utf-8
  3
  4 # In[1]:
  5
  6
  7 get_ipython().run_line_magic(‘matplotlib‘, ‘inline‘)
  8 import d2lzh as d2l
  9 from mxnet import autograd, gluon, nd
 10 from mxnet.gluon import data as gdata, loss as gloss, nn
 11
 12
 13 #  生成数据集
 14 #
 15 # 我们将生成一个人工数据集。在训练数据集和测试数据集中,给定样本特征x,我们使用如下的三阶多项式函数来生成该样本的标签:
 16 # $$y = 1.2x - 3.4x^2 + 5.6x^3 + 5 + \epsilon,$$
 17 # 其中噪声项?服从均值为0、标准差为0.1的正态分布。训练数据集和测试数据集的样本数都设为100。
 18
 19 # In[2]:
 20
 21
 22 n_train, n_test, true_w, true_b = 100, 100, [1.2, -3.4, 5.6], 5
 23 features = nd.random.normal(shape=(n_train + n_test, 1))
 24 poly_features = nd.concat(features, nd.power(features, 2),
 25                           nd.power(features, 3))
 26 labels = (true_w[0] * poly_features[:, 0] + true_w[1] * poly_features[:, 1]
 27           + true_w[2] * poly_features[:, 2] + true_b)
 28 labels += nd.random.normal(scale=0.1, shape=labels.shape)
 29
 30
 31 # In[3]:
 32
 33
 34 #查看生成的数据集的前两个样本
 35 features[:2], poly_features[:2], labels[:2]
 36
 37
 38 # In[4]:
 39
 40
 41 # 定义作图函数semilogy,其中 y 轴使用了对数尺度。
 42 # 本函数已保存在d2lzh包中方便以后使用
 43 def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None,
 44              legend=None, figsize=(3.5, 2.5)):
 45     d2l.set_figsize(figsize)
 46     d2l.plt.xlabel(x_label)
 47     d2l.plt.ylabel(y_label)
 48     d2l.plt.semilogy(x_vals, y_vals)
 49     if x2_vals and y2_vals:
 50         d2l.plt.semilogy(x2_vals, y2_vals, linestyle=‘:‘)
 51         d2l.plt.legend(legend)
 52
 53
 54 # 和线性回归一样,多项式函数拟合也使用平方损失函数。因为我们将尝试使用不同复杂度的模型来拟合生成的数据集,所以我们把模型定义部分放在fit_and_plot函数中。多项式函数拟合的训练和测试步骤与“softmax回归的从零开始实现”一节介绍的softmax回归中的相关步骤类似。
 55
 56 # In[5]:
 57
 58
 59 num_epochs, loss = 100, gloss.L2Loss()
 60
 61 def fit_and_plot(train_features, test_features, train_labels, test_labels):
 62     net = nn.Sequential()
 63     net.add(nn.Dense(1))
 64     net.initialize()
 65     batch_size = min(10, train_labels.shape[0])
 66     train_iter = gdata.DataLoader(gdata.ArrayDataset(
 67         train_features, train_labels), batch_size, shuffle=True)
 68     trainer = gluon.Trainer(net.collect_params(), ‘sgd‘,
 69                             {‘learning_rate‘: 0.01})
 70     train_ls, test_ls = [], []
 71     for _ in range(num_epochs):
 72         for X, y in train_iter:
 73             with autograd.record():
 74                 l = loss(net(X), y)
 75             l.backward()
 76             trainer.step(batch_size)
 77         train_ls.append(loss(net(train_features),
 78                              train_labels).mean().asscalar())
 79         test_ls.append(loss(net(test_features),
 80                             test_labels).mean().asscalar())
 81     print(‘final epoch: train loss‘, train_ls[-1], ‘test loss‘, test_ls[-1])
 82     semilogy(range(1, num_epochs + 1), train_ls, ‘epochs‘, ‘loss‘,
 83              range(1, num_epochs + 1), test_ls, [‘train‘, ‘test‘])
 84     print(‘weight:‘, net[0].weight.data().asnumpy(),
 85           ‘\nbias:‘, net[0].bias.data().asnumpy())
 86
 87
 88 # ### 三阶多项式函数拟合(正常)
 89 # 我们先使用与数据生成函数同阶的三阶多项式函数拟合。实验表明,这个模型的训练误差和在测试数据集的误差都较低。训练出的模型参数也接近真实值:$$w_1 = 1.2, w_2=-3.4, w_3=5.6, b = 5$$
 90
 91 # In[6]:
 92
 93
 94 fit_and_plot(poly_features[:n_train, :], poly_features[n_train:, :],
 95              labels[:n_train], labels[n_train:])
 96
 97
 98 # ### 线性函数拟合(欠拟合)
 99 # 我们再试试线性函数拟合。很明显,该模型的训练误差在迭代早期下降后便很难继续降低。在完成最后一次迭代周期后,训练误差依旧很高。线性模型在非线性模型(如三阶多项式函数)生成的数据集上容易欠拟合。
100
101 # In[7]:
102
103
104 fit_and_plot(features[:n_train, :], features[n_train:, :], labels[:n_train],
105              labels[n_train:])
106
107
108 # ### 训练样本不足(过拟合)
109 # 事实上,即便使用与数据生成模型同阶的三阶多项式函数模型,如果训练样本不足,该模型依然容易过拟合。让我们只使用两个样本来训练模型。显然,训练样本过少了,甚至少于模型参数的数量。这使模型显得过于复杂,以至于容易被训练数据中的噪声影响。在迭代过程中,尽管训练误差较低,但是测试数据集上的误差却很高。这是典型的过拟合现象。
110
111 # In[8]:
112
113
114 fit_and_plot(poly_features[0:2, :], poly_features[n_train:, :], labels[0:2],
115              labels[n_train:])

高维线性回归实验

# ### 高维线性回归实验
# 以高维线性回归为例来引入一个过拟合问题,并使用权重衰减来应对过拟合。设数据样本特征的维度为p。对于训练数据集和测试数据集中特征为$x_1, x_2, \ldots, x_p$的任一样本,我们使用如下的线性函数来生成该样本的标签:
# $$y = 0.05 + \sum_{i = 1}^p 0.01x_i + \epsilon,$$
# 其中噪声项$\epsilon$服从均值为0、标准差为0.01的正态分布。为了较容易地观察过拟合,我们考虑高维线性回归问题,如设维度p=200;同时,我们特意把训练数据集的样本数设低,如20。

# In[10]:

get_ipython().run_line_magic(‘matplotlib‘, ‘inline‘)
import d2lzh as d2l
from mxnet import autograd, gluon, init, nd
from mxnet.gluon import data as gdata, loss as gloss, nn

n_train, n_test, num_inputs = 20, 100, 200
true_w, true_b = nd.ones((num_inputs, 1)) * 0.01, 0.05

features = nd.random.normal(shape=(n_train + n_test, num_inputs))
labels = nd.dot(features, true_w) + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)
train_features, test_features = features[:n_train, :], features[n_train:, :]
train_labels, test_labels = labels[:n_train], labels[n_train:]

# In[11]:

def init_params():
    w = nd.random.normal(scale=1, shape=(num_inputs, 1))
    b = nd.zeros(shape=(1

DROPOUT代码实现

 1 # ### dropout代码实现
 2
 3 # In[17]:
 4
 5
 6 import d2lzh as d2l
 7 from mxnet import autograd, gluon, init, nd
 8 from mxnet.gluon import loss as gloss, nn
 9
10 def dropout(X, drop_prob):
11     assert 0 <= drop_prob <= 1
12     keep_prob = 1 - drop_prob
13     # 这种情况下把全部元素都丢弃
14     if keep_prob == 0:
15         return X.zeros_like()
16     mask = nd.random.uniform(0, 1, X.shape) < keep_prob
17     return mask * X / keep_prob
18
19
20 # In[18]:
21
22
23
24 X = nd.arange(16).reshape((2, 8))
25 dropout(X, 0)
26
27
28 # In[19]:
29
30
31 dropout(X, 0.5)
32
33
34 # In[20]:
35
36
37 dropout(X, 1)
38
39
40 # In[22]:

原文地址:https://www.cnblogs.com/jaww/p/12311084.html

时间: 2024-07-30 14:24:24

机器学习(ML)七之模型选择、欠拟合和过拟合的相关文章

动手深度学习12- 模型选择,欠拟合和过拟合

模型选择.欠拟合和过拟合 训练误差和泛化误差 模型选择 K折交叉验证 欠拟合和过拟合 模型复杂度 训练数据集大小 多项式函数拟合实验 定义.训练和测试模型 欠拟合 过拟合 小结 模型选择.欠拟合和过拟合 前几节给予Fashion_MNIST数据集的实验中,我们评价了机器学习模型在训练集合测试集上的表现.通常得到的结果都是训练数据集上更准确时,它在测试集上表现不一定更好,这就涉及到了模型的选择以及拟合程度的选择. 训练误差和泛化误差 训练误差 是指模型在训练数据集上表现出来的误差 泛化误差 是指模

机器学习之欠拟合和过拟合(一)

1.欠拟合(underfitting)与过拟合(overfitting) 在机器学习中,我们的主要思想是通过对数据集的学习来生成我们的假设模型.在对数据集进行拟合的过程中,我们可能会遇到欠拟合和过拟合的问题.以身高预测的例子为例,这里给出7-18岁男生的身高标准(数据来源:7 岁-18 岁儿童青少年身高发育等级评价),如图1: 将中位数随年龄的变化绘制成散点图,如图2: 由图2中的散点可知,先开始身高随年龄几乎成一条直线关系,后来增长率逐渐下降.如果我们采用线性函数取拟合,这显然是不合理的(线性

欠拟合和过拟合的一般解决方法

简单来说,欠拟合是指模型在训练集.验证集和测试集上均表现不佳的情况:过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差.欠拟合和过拟合一直是机器学习训练中的难题,在进行模型训练的时候往往要对这二者进行权衡,使得模型不仅在训练集上表现良好,在验证集以及测试集上也要有出色的预测能力.下面对解决欠拟合和过拟合的一般方法作一总结,说明大致的处理方向,具体应用还得结合实际的任务.数据和算法模型等. 解决欠拟合(高偏差)的方法 1.模型复杂化 对同一个算法复杂化.例如回归

机器学习笔记—正则化和模型选择

如果针对某个学习问题,从众多模型中选择一个模型,能够在偏差和方差中做一个平衡,怎么样才能自动选择呢?例如,使用多项式回归模型 h(x)=g(θ0+θ1x+θ2x2+...+θkxk),想自动决定 k 的值,在 0~10 之间选择.再比如,要自动选择局部权重回归中的带宽参数 τ,或者 L1 正则化 SVM 的参数 C,怎么做呢? 设有有限个模型 M={M1,...,Md} 供选择,例如在上面的例子中,M 可以是一个 i 项式回归模型.如果想要在 SVM.神经网络和 Logistic 回归之间选择,

机器学习之拟合和过拟合问题

过拟合:当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了,通俗点就是:模型在训练集中测试的准确度远远高于在测试集中的准确度. 过拟合问题通常发生在变量特征过多的时候.这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于0或者就为0,使其拟合只局限于训练样本中,无法很好预测其他新的样本. 欠拟合:在训练数据和未知数据上表现都很差 解决过拟合问题的方法主要有: 1. 减少特征数量,通过人工或者算法选择哪些特征有用保留,哪

机器学习过程中欠拟合和过拟合的诊断及解决方法

1.Diagnosing bias vs. variance 2.Regularization and bias/variance 3.Learning curves 4.Deciding what to try next 原文地址:https://www.cnblogs.com/CoolJayson/p/9704385.html

MXNET:欠拟合、过拟合和模型选择

当模型在训练数据集上更准确时,在测试数据集上的准确率既可能上升又可能下降.这是为什么呢? 训练误差和泛化误差 在解释上面提到的现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error):前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望. 假设训练数据集和测试数据集里的每一个样本都是从同一个概率分布中相互独立地生成的.基于该独立同分布假设,给定任意一个机器学习模型及其参数和超参数,它的训练误差的期望

小白学习之pytorch框架(6)-模型选择(K折交叉验证)、欠拟合、过拟合(权重衰减法(=L2范数正则化)、丢弃法)、正向传播、反向传播

下面要说的基本都是<动手学深度学习>这本花书上的内容,图也采用的书上的 首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) 模型选择 验证数据集(validation data set),又叫验证集(validation set),指用于模型选择的在train set和test set之外预留的一小部分数据集 若训练数据不够时,预留验证集也是一种luxury.常采用的方法为K折交叉验证.原理为:把train set分割成k个不重合

细品 - 过拟合与模型选择*

欠拟合和过拟合 欠拟合是指模型不能很好的捕获到数据特征,不能很好的拟合数据,学习能力底下.解决方法:增加模型的复杂度 过拟合是指模型不仅仅学习了数据集中的有效信息,也学习到了其中的噪音数据,使得模型在训练集上的表现非常好,但是对于测试集的预测效果很差.解决方案: (1) 导致过拟合的一个原因可能是由于数据不纯.包含大量的噪声数据,这时候我们需要重新清洗数据. (2) 增加训练数据的样本量 (3) 采用正则化方法,降低模型参数复杂度(参数大小和参数量),从而降低模型复杂度 (4) 神经网络中常采用