交叉验证概述

交叉验证

交叉验证(Cross-validation)主要用于建模应用中，例如PCR 、PLS 回归建模中。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。

中文名: 交叉验证
外文名: Cross validation

实质: 建模应用中
特点: PCR 、PLS 回归建模中

交叉验证概念

这个过程一直进行，直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和，称为PRESS(predicted Error Sum of Squares)。

交叉验证基本思想

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.

交叉验证目的

用交叉验证的目的是为了得到可靠稳定的模型。在建立PCR 或PLS 模型时，一个很重要的因素是取多少个主成分的问题。用cross validation 校验每个主成分下的PRESS值，选择PRESS值小的主成分数。或PRESS值不再变小时的主成分数。

常用的精度测试方法主要是交叉验证，例如10折交叉验证(10-fold cross validation)，将数据集分成十份，轮流将其中9份做训练1份做验证，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10折交叉验证求均值，例如：10次10折交叉验证，以求更精确一点。

交叉验证有时也称为交叉比对，如：10折交叉比对

交叉验证常见的交叉验证形式

交叉验证Holdout 验证

常识来说，Holdout 验证并非一种交叉验证，因为数据并没有交叉使用。随机从最初的样本中选出部分，形成交叉验证数据，而剩余的就当做训练数据。一般来说，少于原本样本三分之一的数据被选做验证数据。

交叉验证K-fold cross-validation

K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10折交叉验证是最常用的。

交叉验证留一验证

正如名称所建议，留一验证（LOOCV）意指只使用原本样本中的一项来当做验证资料，而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。事实上，这等同于和K-fold 交叉验证是一样的，其中K为原本样本个数。在某些情况下是存在有效率的演算法，如使用kernel regression 和Tikhonov regularization。

当假设空间含有不同复杂度（如不同参数数量）的模型时，就要进行模型选择。如果过度追求在训练数据集上误差小的模型，那么选出来的模型在测试数据集上的误差就可能很大，此时模型过拟合了训练数据集，图1显示了训练误差和测试误差与模型复杂度之间的关系。

所以模型选择时应特别注意防止过拟合，本文首先回顾了过拟合，之后介绍防止过拟合常用的方法之一——交叉验证。

过拟合

若训练得到的模型的复杂度超过真实模型的复杂度，就称发生了过拟合，反之为欠拟合。过拟合发生的原因是训练数据集中存在随机噪声和确定性噪声。

（注：图片来自 Tutorial Slides by Andrew Moore）

交叉验证

交叉验证（Cross-validation，CV） 目的：检测和预防过拟合

交叉验证方法	优点	缺点
Test-set	计算开销小	无法评估模型泛化能力
Leave-one-out cross validation（LOOCV）	不浪费数据	计算开销大
k-fold cross validation	计算开销相对LOOCV小	浪费1/k的数据