模型评估与选择(1)

模型评估与选择

经验误差与过拟合

(1)错误率:分类错误的样本数占样本总数的比例

精度:1\(-\)错误率

(2)误差:学习器的实际输出与样本真实值之间的差异

误差有训练误差和泛化误差两种。训练误差指的是学习器在训练集上的误差,也称为经验误差;泛化误差指的是在新样本上的误差。

(但是,对于训练样本,其分类精度即使是100%,也并不一定代表这个学习器就很好。我们希望得到的是泛化误差小的学习器)

(3)过拟合:承接第2点括号内的内容,我们希望得到的学习器,是在新样本上表现很好的学习器,也就是泛化误差尽可能小。为此,应该尽量从训练集上尽可能学出适用于所有潜在样本的普遍规律。然而,学习器把训练样本学得太好了的时候,往往可能会将训练样本自身的特点当作所有潜在样本都会有的性质,这就是过拟合现象。

? 而与过拟合现象对应的,是欠拟合现象。欠拟合现象指的是学习器对训练样本的一般性质还没学好。

例如,对于一个判断是否是树叶的学习器,如果训练集中的树叶的边缘大多呈锯齿状,那么学习器很可能将边缘不是锯齿状的树叶错当成不是树叶,这就是过拟合的表现,因为学习器误以为所有的树叶都有锯齿边缘。另一方面,如果学习器对于训练集学习底不够好,那么它很可能将绿树当作树叶,因为树叶是绿的,树也是绿色的,学习器并没有进一步的学得树叶的特征,这就是欠拟合现象。

(但是有必要指出,欠拟合可以通过改进学习方法来克服;而过拟合,则无法避免,只能说是缓解)

选取训练集和测试集的几种方法

引言: 对于学习器的泛化误差的评估,可以通过实验来测试。那么,除了训练集之外,还需要一个测试集,训练完成后,需要用测试集来测试学习器对于新样本的判别能力,然后以测试集上的误差作为泛化误差的近似。但是会面临一个问题,那就是我们有的只是一个数据集D=\({(x_1,y_1),(x_2,y_2)\cdots(x_m,y_m) }\)。因此需要用一些技巧来对数据集进行一个划分,得到一个训练集S和一个测试集T。

1.留出法:直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T,D,S,T三者应满足的关系是:

? \(\begin{cases} D=S\cup T\\S\cap T=\varnothing\end{cases}\)

在训练集S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计

2.交叉验证法:先将数据集D划分为k个大小相似的互斥子集,即\(D=D_1\cup D_1\cup \cdots \cup D_k,\)对i\(\ne\)j 有\(D_i\cap D_J=\varnothing\) 每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可以获得k组训练/测试集,从而可以进行k次训练和测试,最终返回的是这k个测试结果的均值。

3.自助法,又称Bootstrap法:直接以自助采样法为基础,给定包含m个样本的数据集D,我们对它进行采样产生数据集D‘,具体的做法是:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样仍能被采到;这个过程重复m次后,我们就得到了包含m个样本的数据集D‘。

? 显然,会有一部分样本会在D‘中多次出现,而也有一部分始终不出现。而一个样本在一次采样中不被采到的概率时\(1-\frac{1}{m}\) ,m次采样始终不被采到的概率就是\((1-\frac{1}{m})^m\)。

? \[\lim_{m\to\infty}(1-\frac{1}{m})^m=\frac{1}{e}=0.368\]

也就是说,当数据集D足够大的时候,其中约有36.8%的样本未出现在D‘中。于是我们可将D‘用作训练集,D-D‘用作测试集;这样,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有数据总量约1/3的没在训练集中出现的数据作为测试集。

关于调参

? 机器学习通常涉及两类参数,一类时算法参数,这一类参数数目常在10以内;另一类是模型参数,数量一般较大。 不论是算法参数还是模型参数,均是产生多个模型之后基于某种评估方法来进行选择;而两种不相同的地方在于,算法参数通常是由人工设定多个参数候选值后产生模型,而模型参数则是通过学习来产生多个候选模型。

? 参数的配置不同,学得的模型性能往往由差异,因此在进行模型评估与选择时候,除了要对适用学习算法进行选择,还要对学习算法参数进行设定,这就是调参。

个人小结

? 本次的整理主要是基于对一个学习算法得出的模型好坏的判断准则,后续还会整理更多相关内容。除此之外,就是学会了一些利用已有数据集来划分训练集和测试集的方法,这和数理统计的抽样方法有点类似,比如在留出法和交叉验证法中,选出的训练集一定要考虑到样本的代表性,因此要以分层抽样的方法来减小因为数据类别分布差异引入的误差;另外就是都要通过多次实验求平均值的方法来进一步减小误差。总而言之,这一部分和数理统计靠的很近。

原文地址:https://www.cnblogs.com/my-python-learning/p/11874726.html

时间: 2024-11-03 18:10:14

模型评估与选择(1)的相关文章

机器学习笔记(二)模型评估与选择

2.模型评估与选择 2.1经验误差和过拟合 不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合. 1)经验误差 错误率(errorrate):分类错误的样本数占样本总数的比例.如果在m个样本中有a个样本分类错误,则错误率E=a/m,相应的,1-a/m称为精度(accuracy),即精度=1-错误率. 误差(error):学习器的实际预测输出和样本的真实输出之间的差异.训练误差或经验误差:学习器在训练集上的误差:泛化误差:学习器在新样本上的误差.

【机器学习 第2章 学习笔记】模型评估与选择

1.训练误差:学习器在训练集上的误差,也称“经验误差” 2.泛化误差:学习器在新样本上的误差 显然,我们的目标是得到在新样本上表现更好的学习器,即泛化误差要小 3.过拟合:学习器把训练样本学的太好了,导致泛化性能下降(学过头了...让我联想到有些人死读书,读死书,僵化,不懂得变通和举一反三) 原因:学习能力过于强大,把一些不太一般的特性也学了进来 针对措施:不好解决,是机器学习面临的关键障碍 4.欠拟合:就是连训练集都没学好,更别说泛化了(有点管中窥豹,盲人摸象的意思). 原因: 学习能力低下

机器学习总结之第二章模型评估与选择

机器学习总结之第二章模型评估与选择 2.1经验误差与过拟合 错误率 = a个样本分类错误/m个样本 精度 = 1 - 错误率 误差:学习器实际预测输出与样本的真是输出之间的差异. 训练误差:即经验误差.学习器在训练集上的误差. 泛化误差:学习器在新样本上的误差. 过拟合:学习器把训练样本学的"太好",把不太一般的特性学到了,泛化能力下降,对新样本的判别能力差.必然存在,无法彻底避免,只能够减小过拟合风险. 欠拟合:对训练样本的一半性质尚未学好. 2.2评估方法 (在现实任务中,还需考虑

【机器学习123】模型评估与选择 (上)

第2章 模型评估与选择 2.1 经验误差与过拟合 先引出几个基本概念: 误差(error):学习器的实际预测输出与样本的真实输出之间的差异. 训练误差(training error):学习器在训练集上的误差,也称"经验误差". 测试误差(testing error):学习器在测试集上的误差. 泛化误差(generalization error):学习器在新样本上的误差. 错误率(error rate):分类错误的样本数占样本总数的比例. 精度(accuracy) = 1 – 错误率.

第二章 模型评估与选择

2.1  经验误差与过拟合 错误率和精度:通常我们把分类错误的样本占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为“精度”.(accuracy).即“精度=1-错误率”. 误差:学习期的实际预测误差和样本的真实输出之间的差异称为“误差”(error) 训练误差/经验误差:学习器在训练集上的误差称为“训练误差”(training error)或 “经验误差”(expircial error) 泛化误差(gene

机器学习之模型评估与选择

2.1 经验误差与过拟合 基本概念: 错误率:分类错误数/总样本数 训练误差/经验误差:学习器在训练集上所产生的误差 泛化误差:学习器在测试集上产生的误差 2.2 评估方法 在实际应用中会有多种不同的算法进行选择,对于不同的问题,我们该选择用哪种学习算法和参数配置,是机器学习中的模型选择.无法直接获得泛化误差,训练误差由于过拟合现象的存在也不适合作为标准,我们如何对模型进行评估和选择. 从训练集中随机获取测试集,测试集和训练集互斥.通过对D进行适当的处理,从中产生出训练集S和测试集T,下面介绍几

监督学习之模型评估与选择

一.定义: 监督学习主要包括分类和回归 当输出被限制为有限的一组值(离散数值)时使用分类算法 当输出可以具有范围内的任何树值(连续数值)时使用回归算法 相似度学习是和回归和分类都密切相关的一类监督学习,它的目的是使用相似函数从样本中学习,这个函数可以度量两个对象之间的相似度或关联度 二.监督学习三要素 模型:总结数据的内在规律,用数据函数描述的系统 策略:选取最优模型的评价准则 算法:选取最优模型的具体方法 三.模型评估: 1.训练集和测试集 训练集(training set):训练模型的数据

分类模型评估与选择总结

1.评估分类器性能的度量 当建立好一个分类模型之后,就会考虑这个模型的性能或准确率如何,这里介绍几种分类器评估度量如下表: 假设在有标号的元组组成的训练集上使用分类器.P是正元组数,N是负元组数. 度量 公式 准确率.识别率 (TP+TN)/(P+N) 错误率.误分类率 (FP+FN)/(P+N) 敏感度.真正例率.召回率 TP/P 特效型.真负例率 TN/N 精度 TP/(TP+FP) F.F1.F分数 精度和召回率的调和均值 2*precision*recall/(precision+rec

机器学习 第二章:模型评估与选择-总结

1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式. 留出法将数据集划分为两个互斥的集合,为了保持数据的一致性,应该保证两个集合中的类别比例相同.故可以用分层采样的方法.训练集包含350个正例与350个反例,测试集包含150个正例与150个反例. 故有500C350*500C350 种划分方式(排列组合) 2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训