西瓜书第二章--模型评估与选择

2.1 经验误差与过拟合

错误率：错分样本的占比

精度：分对样本的占比，与错误率是互补的。

误差：样本真实输出与预测输出之间的差异。学习器在训练集上的误差称为训练误差或经验误差，在新样本上的误差称为泛化误差。

由于事先并不知道新样本的特征，我们只能努力使经验误差最小化；很多时候虽然能在训练集上做到分类错误率为零，但多数情况下这样的学习器并不好

过拟合：学习器把训练样本学习的“太好”，将训练样本本身的特点当做所有样本的一般性质，导致泛化性能下降；

解决措施：1.优化目标加正则项；2.early stop；

欠拟合：对训练样本的一般性质没有学习好

解决措施：1.决策树:拓展分支； 2.神经网络：增加训练轮数；具体表现如下图所示：

2.2 评估方法

前提：现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择。

我们假设测试集是从样本真实分布中独立采样获得，将测试集上的“测试误差”作为泛化误差的近似，所以测试集要和训练集中的样本尽量互斥。通常将包含m个样本的数据集分为测试集T和训练集S，下面介绍几种常用的方法：

留出法：

交叉验证法：

留一法的意思就是将每个样本都变成一个独立的子集，这样取一个留剩下所有个的做法就是留一法。

自助法：

解释一下大概1/3概率的来源：

这里的N相当于上文提到的 m ，每次不放回地抽样N个样本，最后取极限没有被抽到的样本的数目即使上述式子取极限。

2.3 性能度量

2.3.1定义：对学习器的泛化性能进行评估，不仅需要有效可行的实验方法还需要有衡量模型泛化能力的评价标准，此评价标准就是性能度量。

给定样例集：
，其中y_i是示例x_i 的真实标记，我们的目标就是把学习器的预测结果f(x)与真实标记y进行比较。

2.3.2查准率与查全率：

其中TP的意思是True Positive ，FN是Flase Negative，其余的类推。(混淆矩阵请自行百度)

查准率P的意思是在预测结果中挑到真确的比例，类似于小圈子里面的内推，这样P、R的意思就很容易理解了。而后根据学习器的预测结果按正例可能性大小对样例进行排序，并逐个把样本作为正例进行预测，则可以得到查准率-查全率曲线，简称“P-R曲线”

平衡点(BEP)是曲线上“查准率=查全率”时的取值，可用来用于度量P-R曲线有交叉的分类器性能高低，我们的主观当然是P和R越大越好，所以说若一个曲线能被另一个完全包住则说明被包住的性能没有外面的优越，比如优越性能排行：A>B>C，在很多情况下，一般是比较P-R曲线的面积来判断优越性，面积越大则越好。但是这个面积值又不太容易估算，我们就选择平衡点的值来进行比较，值越大越好。但是BEP又过于简单了，于是采用F1度量：

采用调和平均的定义:

F1即把角标贝塔等于1即可，通过化简：

在西瓜书上还有宏的查准率和查全率的概念，其实就是取了一个平均罢了。这里就不急于赘述了，有兴趣可以自行看书。

2.3.3ROC与AUC

定义：类似P-R曲线，根据学习器的预测结果对样例排序，并逐个作为正例进行预测，以“假正例率”为横轴，“真正例率”为纵轴，可得到ROC曲线,全称“受试者工作特征”.

其中ROC图的绘制步骤如下：

AUC:即ROC下的面积：

2.3.4代价敏感错误率与代价曲线：

背景：现实任务中不同类型的错误所造成的后果很可能不同，为了权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”。

在非均等代价下，不再最小化错误次数，而是最小化“总体代价”，则“代价敏感”错误率相应的为：

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”可以。代价曲线的解释如下：

绘制方法：

2.4比较检验

由于测试性能并不等于泛化性能，测试性能随测试集的变化而变化，而且很多机器学习算法具有一定的随机性。直接选取的评估方法往往与现实不太贴切。假设检验为学习器性能比较提供了重要依据。

2.4.1 二项检验

同样，还有 t 检验以及交叉验证 t 检验、McNemar检验、Friedman检验、Nemynyi后续检验、最后再将一个偏差与方差，这个没什么好讲的老套公式，这里给出一个前两个与泛化性能的关系图：

3 阅读材料

原文地址：https://www.cnblogs.com/icetree/p/12404252.html

时间： 2024-10-14 15:35:59

西瓜书第二章--模型评估与选择的相关文章

机器学习总结之第二章模型评估与选择

机器学习总结之第二章模型评估与选择 2.1经验误差与过拟合错误率 = a个样本分类错误/m个样本精度 = 1 - 错误率误差:学习器实际预测输出与样本的真是输出之间的差异. 训练误差:即经验误差.学习器在训练集上的误差. 泛化误差:学习器在新样本上的误差. 过拟合:学习器把训练样本学的"太好",把不太一般的特性学到了,泛化能力下降,对新样本的判别能力差.必然存在,无法彻底避免,只能够减小过拟合风险. 欠拟合:对训练样本的一半性质尚未学好. 2.2评估方法 (在现实任务中,还需考虑

第二章模型评估与选择

2.1 经验误差与过拟合错误率和精度:通常我们把分类错误的样本占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为“精度”.(accuracy).即“精度=1-错误率”. 误差:学习期的实际预测误差和样本的真实输出之间的差异称为“误差”(error) 训练误差/经验误差:学习器在训练集上的误差称为“训练误差”(training error)或 “经验误差”(expircial error) 泛化误差(gene

西瓜书第二章

第2章模型评估与选择 2.1 经验误差与过拟合学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”:过拟合一般是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由学习能力低下而造成的.欠拟合比较容易克服,例如在决策树学习中扩展分支,在神经网络学习中增加训练轮数等,而过拟合则很麻烦,它是无法避免的,机器学习面临的问题通常是NP难甚至更难,而有效的学习算法必然是在多项式时间内运行完成,若可彻底的避免过拟合,则通过经验误差最小

第二章模型评估

1. 评价指标的局限性准确率(Accuracy) 精确率(Precision) 召回率(Recall) 均方根误差(Root Mean Square Error, RMSE) 1.1 准确率准确率: 指分类正确的样本占总样本个数的比例 Accuracy = \frac{n_{correct}}{n_{total}} 准确度的问题: 当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素. 例如:当负样本占99%,分类器把所有样本都预测为负样本也可以获得99%的准确率.

【机器学习123】模型评估与选择 (上)

第2章模型评估与选择 2.1 经验误差与过拟合先引出几个基本概念: 误差(error):学习器的实际预测输出与样本的真实输出之间的差异. 训练误差(training error):学习器在训练集上的误差,也称"经验误差". 测试误差(testing error):学习器在测试集上的误差. 泛化误差(generalization error):学习器在新样本上的误差. 错误率(error rate):分类错误的样本数占样本总数的比例. 精度(accuracy) = 1 – 错误率.

【机器学习第2章学习笔记】模型评估与选择

1.训练误差:学习器在训练集上的误差,也称“经验误差” 2.泛化误差:学习器在新样本上的误差显然,我们的目标是得到在新样本上表现更好的学习器,即泛化误差要小 3.过拟合:学习器把训练样本学的太好了,导致泛化性能下降(学过头了...让我联想到有些人死读书,读死书,僵化,不懂得变通和举一反三) 原因:学习能力过于强大,把一些不太一般的特性也学了进来针对措施:不好解决,是机器学习面临的关键障碍 4.欠拟合:就是连训练集都没学好,更别说泛化了(有点管中窥豹,盲人摸象的意思). 原因: 学习能力低下

《机器学习》西瓜书第一章绪论

机器学习绪论基本术语基础模型:泛指从数据中学得的结果数据集 data set:一组记录的集合示例 instance/样本 sample:关于一个事件或对象的描述属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项属性值 attribute value:属性上的取值属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间特征向量 feature vector:

机器学习笔记(二)模型评估与选择

2.模型评估与选择 2.1经验误差和过拟合不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合. 1)经验误差错误率(errorrate):分类错误的样本数占样本总数的比例.如果在m个样本中有a个样本分类错误,则错误率E=a/m,相应的,1-a/m称为精度(accuracy),即精度=1-错误率. 误差(error):学习器的实际预测输出和样本的真实输出之间的差异.训练误差或经验误差:学习器在训练集上的误差:泛化误差:学习器在新样本上的误差.

模型评估与选择（1）

模型评估与选择经验误差与过拟合 (1)错误率:分类错误的样本数占样本总数的比例精度:1\(-\)错误率 (2)误差:学习器的实际输出与样本真实值之间的差异误差有训练误差和泛化误差两种.训练误差指的是学习器在训练集上的误差,也称为经验误差:泛化误差指的是在新样本上的误差. (但是,对于训练样本,其分类精度即使是100%,也并不一定代表这个学习器就很好.我们希望得到的是泛化误差小的学习器) (3)过拟合:承接第2点括号内的内容,我们希望得到的学习器,是在新样本上表现很好的学习器,也就是泛化误差

猜你喜欢

[iOS UI进阶 - 1] 自定义控件

A.关于Quiartz2D的一些细节 1.UIKit的工具已经封装了上下文引用,所以不用手动获取和渲染 1 - (void)drawRect:(CGRect)rect { 2 [[UIColor re ...

如何让文字随着右边变化联动，而左侧随着图片动？css div标签

效果是这样: 图片做背景:background:url(kx100-d-001.png) 50% 50%; 然后呢,中间是大字,居中.但是下面的小字却不需要居中,如何办? <span style ...

【C/C++多线程编程之四】终止pthread线程

多线程编程之终止pthread线程 Pthread是 POSIX threads 的简称,是POSIX的线程标准. 终止线程似乎是多线程编程的最后一步,但绝不是本系列教材的结束. ...

牛客网左旋转字符串，很巧妙地利用了string里面的substr(n,len)

class Solution { public: string LeftRotateString(string str, int n) { int len ...

用gdb调试游戏服务端

前言说说gdb的重要性一般来说,提到gdb,都是用命令来调试."命令",这个对于用户来说几乎等同于繁杂的词语.尽管事实确实如此,但实际的开发调试必须用到gdb.现在,大多数Li ...

[POI2008]KLO && POC

题意:给定一个序列 s1, s2,...sn,以及一个k,求一个连续的k个数,把s[i]...s[i+k-1]变成一个数s',使得sigma(|s[j]-s'|)(i<=j<=i+k-1) ...

hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7

很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我 ...

block和delegate 通知区别

通知:"一对多",在APP中,很多控制器都需要知道一个事件,应该用通知: delegate:1,"一对一",对同一个协议,一个对象只能设置一个代理delegat ...

iOS开发之UIBezierPath曲线动画

func animation1(layerParam: CAShapeLayer){ let animation = CABasicAnimation(keyPath: "strokeSta ...

2015.9.30日作业

项目成本管理重点梳理项目成本管理的概念:项目成本管理是项目管理的一个重要组成部分,它是指在项目的实施过程中,为了保证完成项目所花费的实际成本不超过其预算成本而展开的项目成本估算.项目预算编制和项目成 ...

CentOS禁用root本地或远程ssh登录

有些特殊的情况我们需要禁止root在本地或远程使用ssh登录,以增加安全性. 禁止root本地登录修改/etc/pam.d/login文件增加下面一行auth required pam_succee ...

徘柯觅纱纳残势蛊祭睦憾掖势当稼

http://www.ebay.com/cln/jhhbxjldj-lbvphnxpj/2014-11-29/137883671018 http://www.ebay.com/cln/bfrtzrtx ...

python列出一个文件夹及其子目录的所有文件

>>> import os >>> for i in os.walk("."): ... print i[0],"\n##&q ...

python中类的内置属性初探

首先,建立一个类,并用该类创建一个对象,分别查看object,类与对象的内置属性 1 import inspect 2 3 class Foo(): 4 '''随便瞎写''' 5 group = 'b ...

微软为windows8应用开发安全支招

%E5%85%B3%E4%BA%8Easpnet%E5%86%85%E5%AD%98%E7%BC%93%E5%AD%98%E4%BD%A0%E9%9C%80%E8%A6%81%E7%9F%A5%E9% ...

Windows Phone 8 蓝牙编程

蓝牙是手机的近距离无限传输的技术,在之前的Windows Phone 7系统手机里面仅支持蓝牙耳机功能,并不支持蓝牙文件信息传输,那么在Windows Phone 8手机里面将全面支持蓝牙技术,并且提 ...

关于CacheLookup一个有趣的问题

今天写一个与其他系统进行物料同步的接口,通过COM Business Connector调用Axapta3.0的方法将数据插入到物料表中,中间发生异常,事务回滚,再次调用的时候提示刚刚发生异常的物料已 ...

Linux基本命令（一）

Linux基本命令编辑器 vim编译器 Gnu工具链-gcc调试器 GDB操作系统是用C来写的系统编程 (核心骨架 80%) 文件I/O 文件系统进程{ 进程控制原语.进程间通信.进程间关系信 ...

《Android深度探索》卷1 第三章笔记 1314王宁

Git是Linux内核代码对于源代码进行管理操作的软件,它的各方面都要优与其它同类的源代码管理软件. 在安装Git后,查看git文档在Linux下可以使用man命令看指令帮助文档;安装Git-doc后 ...

Oracle客户端配置字符集环境变量

1查询服务端字符集指令:select userenv('language') from dual; 结果:AMERICAN_AMERICA.AL32UTF8 2配置本地环境变量在系统变量中新加变 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.