paper 123: SVM如何避免过拟合

过拟合(Overfitting)表现为在训练数据上模型的预测很准,在未知数据上预测很差。过拟合主要是因为训练数据中的异常点,这些点严重偏离正常位置。我们知道,决定SVM最优分类超平面的恰恰是那些占少数的支持向量,如果支持向量中碰巧存在异常点,那么我们傻傻地让SVM去拟合这样的数据,最后的超平面就不是最优的。

如图1所示,深红色线表示我们希望训练得到的最优分类超平面,黑色虚线表示由于过拟合得到的较差的分类面。这是由于蓝色数据中有一个异常点,即图中的那个黑圈蓝点,使得我们的SVM去将就配合它,导致最后得到的分类面(粗黑色虚线)不尽如人意。从间隔可以看出,黑色虚线两边的间隔要比红色线两边的间隔要狭窄,也就是黑色虚线的分类效果比较差。

图1 异常点导致SVM过拟合

解决过拟合的办法是为SVM引入了松弛变量ξ(slack variable),将SVM公式的约束条件改为:

(3)

从图2可以看到,引入松弛变量使SVM能够容忍异常点的存在。为什么?因为引入松弛变量后,所有点到超平面的距离约束不需要大于等于1了,而是大于0.8就行了(如果ξ=0.2的话),那么异常点就可以不是支持向量了,它就作为一个普通的点存在,我们的支持向量和超平面都不会受到它的影响。

图 2 松弛变量的作用

我们知道,事物都有两面性,对异常点太容忍会导致任意超平面都可以是“最优”超平面,SVM就失去意义了。因此SVM公示中的目标函数也需要相应修改,我们加上松弛变量的平方和,并求最小值。这样就达到一个平衡:既希望松弛变量存在以解决异常点问题,又不希望松弛变量太大导致分类解决太差。

时间: 2024-10-29 19:13:33

paper 123: SVM如何避免过拟合的相关文章

关于过拟合、局部最小值、以及Poor Generalization的思考

Poor Generalization 这可能是实际中遇到的最多问题. 比如FC网络为什么效果比CNN差那么多啊,是不是陷入局部最小值啊?是不是过拟合啊?是不是欠拟合啊? 在操场跑步的时候,又从SVM角度思考了一下,我认为Poor Generalization属于过拟合范畴. 与我的论文 [深度神经网络在面部情感分析系统中的应用与改良] 的观点一致. SVM ImageNet 2012上出现了一个经典虐杀场景.见[知乎专栏] 里面有一段这么说道: 当时,大多数的研究小组还都在用传统compute

再谈SVM

首先,是由逻辑回归引到SVM当中.先回顾一下逻辑回归的知识.其实主要是sigmoid的函数不要搞错. OK,既然是由逻辑回归引出来的,那么先列出逻辑回归的成本函数方程.然后对y为0和1分别进行画图讨论,形象化的图片如下.所以说,线性svm只是逻辑回归当中,h(x)是sigmoid的一种特例,这个不过分吧.因为它就是逻辑回归啊.只是h(x)变了下. 根据上文的画图后的代表,成本函数就转变成如下的形式. 貌似下面就能直接写出SVM的成本方程了.下面只是对前面的系数进行的一些简单的变化. 所以,以上就

【林轩田】SVM

SVM 推导 点到平面的距离(几何距离): 函数距离: |wx+b|,不考虑1/||w||. SVM的优化目标:所有样本点到分离超平面的最小的几何距离最大,可以写成: 这里 限制条件的第一行表示每个样本点都被正确的分类, 第二行表示最大化的目标是样本点到分离超平面的最小几何距离. W,b同步放缩并不影响分离超平面,故放缩至一定比例,使所有样本点到超平面的最小函数距离刚好为1, 那么最大化的目标就很简单了 需要优化的问题的形式为: 注意,既然放缩时使最小的函数间隔为1,那么实际上产生了一个比之前每

Paper Reading:RCNN-SPP-Fast RCNN-Faster RCNN

本文对基于RCNN框架的几个模型进行介绍和总结. [目标检测][base64str0] RCNN 论文:Rich feature hierarchies for accurate object detection and semantic segmentation 发表时间:2014 发表作者:(加州大学伯克利分校)Ross Girshick 发表刊物/会议:CVPR 本文具有很多比较重要的意义. 1.在 Pascal VOC 2012 的数据集上,能够将目标检测的验证指标 mAP 提升到 53

SVM-支持向量机(一)线性SVM分类

SVM-支持向量机 SVM(Support Vector Machine)-支持向量机,是一个功能非常强大的机器学习模型,可以处理线性与非线性的分类.回归,甚至是异常检测.它也是机器学习中非常热门的算法之一,特别适用于复杂的分类问题,并且数据集为小型.或中型的数据集. 这章我们会解释SVM里的核心概念.原理以及如何使用. 线性SVM分类 我们首先介绍一下SVM里最基本的原理.这里先看一张图: 这个是Iris数据集中的部分数据,可以看到这两个类别可以由一条直线很简单地直接分开(也可以说它们是线性可

肌电控制灵巧手(二)

模式识别算法 肌电模式特征提取 普遍认为,肌电信号是一非稳态随机过程,它的幅值.方差.能量及频率因收缩等级的不同而不同,此外肌电信号信噪比低,所以可以把原始信号看作是超高维或者是无穷维的特征.特征的选择有几种类型: 1.对肌电信号过程进行物理建模,把其中一个或者多个物理量作为用于分类的特征,对于表面肌电信号进行建模分析,普遍采用Merlo提出的数学模型.基于大量动作电位的重叠及运动单位放电的非对称特性,表面肌电可以看出复杂的.非稳定随机信号.常用的肌电特征为 幅度.功率谱及小波系数(分别作用在信

机器学习技术在达观数据的实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测.支付平台的欺诈交易监测等等.达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾获得cikm2014数据挖掘竞赛冠军,也开发过智能文本内容审核系统.作弊监测系统.用户建模系统等多个基于大数据技术的应用系统.机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享(达观数据联合创始人 纪传俊) CIK

2015-05-29股票资料

代码 名称 股价 总市值 所属行业 6日涨幅% 6日换手% 总股本 601628 中国人寿 35.26 9966亿 保险 -3.85 2.77 283亿 601318 中国平安 85.44 7809亿 保险 -1.34 18.87 91.4亿 601601 中国太保 32.23 2921亿 保险 -3.85 10.88 90.6亿 601336 新华保险 58.81 1835亿 保险 -4.53 14.57 31.2亿 600660 福耀玻璃 16.43 412亿 玻璃陶瓷 1.55 23.92

SVM详解(包含它的参数C为什么影响着分类器行为)-scikit-learn拟合线性和非线性的SVM

引言 这篇文章详细地介绍了SVM背后的原理,它为什么是大间距分类器?分类器的参数C为什么影响着分类器的行为?核函数背后采用了什么样的技术,看过这篇文章以后,相信你能很好地理解这些问题.最后,我用scikit-learn来分别来拟合线性和非线性的SVM,让大家对SVM分类器有更加深刻的理解. 找寻最优化目标 相信所有用过SVM的人都知道它是一个大间距分类器.但是,它的原理是什么?它为什么可以最大化决策边界与样本之间的距离?下面我将一步一步的揭开它神秘的面纱. 从上图中我们可以看到,SVM会最大化间