Support Vector Machine(3)：Soft Margin 平衡之美

很多材料上面讲道“引入Soft Margin的原因是因为数据线性不可分”，个人认为有些错误，其实再难以被分解的数据，如果我们用很复杂的弯弯绕曲线去做，还是可以被分解，并且映射到高维空间后认为其线性可分。但如果我们细细思考，其实很多算法都有一样的索求：寻求一种之于“最大限度拟合训练集”and“获得更好归纳能力”的平横，也就是所谓的Overfitting and Underfitting。也像人的性格，太过纠结细节或者神经太过大条，都难以和人相处愉快。那让我们的训练集的数据，必须要用很复杂的曲线才可以分割时，我们引入soft margin的概念。

在未引入Soft Margin的SVM中，我们希望每个训练集中的数据点至少满足如下条件，即距离Margin的函数距离大于0，也即距离Hyperplane的函数距离大于1

而考虑到，如果有部分outliers点的函数距离小于我们的期望值了，该偏离为ξ，那么这些点满足的条件是：

那么，我们把之前的优化问题如下：

转化为了：

也就是说，一方面我们需要优化ω，使得margin=1/|| ω||值达到最大化，另一方面我们选择的 ω又要使得outliers的偏离值之和最小，在二者之间寻求一种平衡。C是平衡系数，用于调整两部分调整项之间的权重。该优化的拉格朗日函数为：

经过求对偶，利用KKT条件：

带回到原L函数中，ξ的系数会变成C-α-r=0，因而被消去，所以经过推导，Dual问题变为：

可以看到，形式几乎和原问题一样，知识在α的条件上加了个上限C。

原文地址：https://www.cnblogs.com/rhyswang/p/8455959.html

时间： 2024-11-06 07:12:25

Support Vector Machine(3)：Soft Margin 平衡之美的相关文章

机器学习之支持向量机（Support Vector Machine）（更新中...）

支持向量机支持向量机(support vector machines,SVMs)是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机:支持向量机还包括核技巧,这使它成为实质上的非线性分类器.支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题. 支持向量机学习方法包含构建由简至繁的模型:线性可分支持向量机(linear support vector machine in

支持向量机（SVM：support vector machine）

传统机器学习分类任务中,我认为支持向量机是最难.最复杂.最有效的一种模型.可能是由于其是一种特殊的神经网络的缘故吧! 1.支持向量机简介支持向量机(support vector machines,SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机:支持向量机还包括核技巧,这使它成为实质上的非线性分类器.支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming,不怕,附录有解

A glimpse of Support Vector Machine

支持向量机(support vector machine, 以下简称svm)是机器学习里的重要方法,特别适用于中小型样本.非线性.高维的分类和回归问题.本篇希望在正篇提供一个svm的简明阐述,附录则提供一些其他内容.(以下各节内容分别来源于不同的资料,在数学符号表述上可能有差异,望见谅.) 一.原理概述机器学习的一大任务就是分类(Classification).如下图所示,假设一个二分类问题,给定一个数据集,里面所有的数据都事先被标记为两类,能很容易找到一个超平面(hyperplane)将其完

Machine Learning Techniques -1-Linear Support Vector Machine

1-Linear Support Vector Machine 我们将这种定义为margin,则之前判断最优划分的问题转化为寻找最大margain的问题. 对于待选的几个w所表示的线,问题转化成利用对应w比较相对距离的问题. 此时定义w为方向向量,b为之前的w0,即bia. 由于w就是所求点到直线的法线方向,问题转化为求投影的问题. 因为每个点对应符号yn只有在和距离表示的绝对值内部符号为+的时候才说明划分正确,所以可以乘上yn来去除abs() 这里的距离是一种容忍度,所以我们选其中最近的那个.

机器学习技法——第1-2讲.Linear Support Vector Machine

本栏目(机器学习)下机器学习技法专题是个人对Coursera公开课机器学习技法(2015)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Techniques中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumltwo-001/lecture) 第1讲-------Linear Support Vector Machine 在机器学习基石介绍的基本工具(主要围绕特征转换Feature Transf

Linear Classification: Support Vector Machine, Softmax

原文地址:http://cs231n.github.io/linear-classify/ ############################## 内容列表: 1．介绍线性分类器 2．线性成绩函数 3．解释一个线性分类器 4．损失函数 4.1．多类支持向量机 4.2 . Softmax分类器 4.3 . 支持向量机 vs Softmax 5．线性分类器的交互式web例子 6．总结 ###############################################3 Linear

支持向量机(support vector machine)

支持向量机SVM 支持向量机(support vector machine,SVM)是由Cortes和Vapnik在1995年提出的,由于其在文本分类和高维数据中强大的性能,很快就成为机器学习的主流技术,并直接掀起了"统计学习"在2000年前后的高潮,是迄今为止使用的最广的学习算法. 本篇将要简要的介绍一下SVM,如有错误请批评指正,共同学习.本文主要分为以下几个部分: SVM的优化目标(代价函数) SVM最大间隔超平面 large margin(决策边界) SVM最大间隔中的数学原理

Support Vector Machine(2)：求解线性可分SVM的最佳边界

在上篇文章<Support Vector Machine(1):线性可分集的决策边界>中,我们最后得到,求SVM最佳Margin的问题,转化为了如下形式: 到这一步后,我个人又花了很长的时间去查阅资料,因为数学较差的原因,理解起来相当慢,不过探索的乐趣也就在于不断的打破瓶颈向前,OK继续.上述的问题等价于: 而后我们引入广义拉格朗日函数,利用拉格朗日对偶性来求解此问题.首先明确一下,我们做这些工作的目的是,消去约束条件,为了好求解问题.广义拉格朗日函数为: 上式分为两部分,拉格朗日前辈的思路是

支持向量机SVM(Support Vector Machine)

支持向量机(Support Vector Machine)是一种监督式的机器学习方法(supervised machine learning),一般用于二类问题(binary classification)的模式识别应用中. 支持向量机的最大特点是既能够最小化经验损失(也叫做经验风险.或者经验误差),同时又能够最大化几何间距(分类器的置信度),因此SVM又被称为最大边缘区(间距)的分类器. 根据具体应用场景的不同,支持向量机可以分为线性可分SVM.线性SVM和带有核函数的SVM.最终的结果都是得

猜你喜欢

数据库笔试试题1

在关系数据库设计中,设计关系模式(二维表)是数据库设计中哪个阶段的任务? 正确答案: A 你的答案: C (错误) 逻辑设计阶段概念设计阶段物理设计阶段需求分析阶段解析:按照规范的设计方法, ...

看死亡笔记后的想法(二)

逮捕火口的当晚,火口面对自己基拉身份即将对全社会公开的局面.公开了他就完蛋了和他是紧密利益共同体,知道一切秘密的八人会议,火口自然从八人会议推理,到底是谁背叛了? 的确是有人背叛了,但是如果没有第三 ...

将Windows MyEclipse的web项目移植到Debian下

用windows先的MyEclipse很方便,但是要把MyEclipse的web项目移植到Debian下,稍微有一点麻烦.当然,如果是ubuntu的话,直接装MyEclipse就可以了.这里只将针对于 ...

寻找数组中重复次数最多的数

#include<iostream> #include<map> using namespace std; int helper(const int a[],const int ...

Samsung_tiny4412(笔记)-->jiffies,timer,kthread,workqueue,tasklet

/*********************************************************************************** * * Samsung_tin ...

4年半IT路和严重的危机感

摘要:有人推崇产品,有人推崇运营,也有人推崇战略-到底该推崇什么?李智勇系统地分析了这三者之间的思路,并引用黑格尔的一句话,给出了自己的看法:在尺度中已经蕴含本质,这在产品.运营.战略的侧重上体现的非 ...

oracle 进阶之model子句

本博客是自己在学习和工作途中的积累与总结,仅供自己参考,也欢迎大家转载,转载时请注明出处. 一, model子句制作表格数据,用传统sql来实现的话,一般通过多个表的自联结实现,而model的出现 ...

[读书笔记]xampp mysql启动失败解析（win7）

1. [mysql] MySQL Service detected with wrong path [mysql] Change XAMPP MySQL and Control Panel s ...

两种实现栈ADT的方式

栈是一种先进后出或说是后进先出的数据结构,书中介绍了两种简单实现方法,其中使用链表的是比较方便的方式,而是用数组的方式效率比较高,但是需要初始化的时候指明最大数组元素上限个数. 下面是简单实现: 1. ...

C#后台发送HTTP请求

转载自:http://www.cnblogs.com/leon719/p/4263673.html using System.Collections.Generic; using System.Lin ...

BZOJ 2292 永远挑战

最短路. #include<iostream> #include<cstdio> #include<cstring> #include<algorithm&g ...

【BZOJ 1023】【SHOI 2008】cactus仙人掌图

良心的题解↓ http://z55250825.blog.163.com/blog/static/150230809201412793151890/ tarjan的时候如果是树边则做树形DP(遇到环就 ...

AEAI HR V1.5.1升级说明，开源人力资源管理系统

本次发版的AEAI HR_v1.5.1版本为AEAI HR_v1.5.0版本的升级版本,该产品现已开源并上传至开源社区http://www.oschina.net/p/aeaihr. 1 升级说明 A ...

用大数据为企业输送中低端劳动力

越是正确的路越难走,达到目标会有很多条路,你可以去走捷径,但是这些路无一例外都会通往那段难走的路.越是正确的路,越是难走.但是一旦你走到了一定程度,就会豁然开朗.如何保证企业发布的信息真实可靠.因为农 ...

网页版vnc实时监控、控制手机、pc桌面

代码地址:http://files.cnblogs.com/files/fxnet/noVNC.zip 控制pc.手机的桌面并且进行操作准备:被控制的设备需要下载一个vnc客户端 iphone用户推 ...

Java 数据结构之vector

Vector 实现了一个动态数组.是可实现自动增长的对象数组. vector和arraylist的比较: 1.都是采用数组格式存储数据,索引数据块插入数据慢 2.ArrayList会比Vector快, ...

yum安装lamp+discuz

首先安装httpd 相关软件包 yum install httpd httpd-devel httpd-manual httpd-tools -y 启动httpd服务 service httpd re ...

C#窗体 WinForm 文件操作

文件及文件夹操作 C/S:WinForm可以操作客户端文件 Client ServerB/S:浏览器服务 Brower Server 命名空间:using system .IO; 1. File类:文 ...

PHP中传值与传引用的区别

<?php/*func1() : 传值的话,如果是非对象,会传一个值的拷贝,对这个变量做任何改动都不影响原值.*/function func1($a) { $a = $a + 1;}/*func ...

socket.gethostname() vs socket.getfqdn()

[socket.gethostname() vs socket.getfqdn()] gethostname()把域名转换为IP.

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.042 s.