（笔记）斯坦福机器学习第七讲--最优间隔分类器

本讲内容

1.Optional margin classifier（最优间隔分类器）

2.primal/dual optimization（原始优化问题和对偶优化问题）KKT conditions（KKT条件）

3.SVM dual （SVM的对偶问题）

4.kernels （核方法）

1.最优间隔分类器

对于一个线性可分的训练集合，最优间隔分类器的任务是寻找到一个超平面(w,b), 使得该超平面到训练样本的几何间隔最大。

你可以任意地成比例地缩放w和b的值，这并不会改变几何间隔的大小。

例如，我可以添加这样的约束：

这意味着我可以先解出w的值，然后缩放w的值，使得

我们可以自由地选择缩放因子来添加一些约束条件，但不会改变几何间隔的大小。

考虑最优间隔分类器的优化问题：

添加这个条件，可以使几何间隔等于函数间隔。但是这个条件是一个非常糟糕的非凸性约束，所以需要改变优化问题：

实际上这依然是一个糟糕的非凸性优化目标，很难找到参数的全局最优解。之前说过我们可以自由地选择缩放因子来添加一些奇怪的约束条件，这里我们选择添加 .很明显这是一个缩放约束，当解出w，b的值后，你可以对他们进行任意地缩放，使得函数间隔等于1.因此优化问题变为：

这就是最终的凸优化问题。

2.原始问题和对偶问题

拉格朗日乘数法

假设有一个优化问题

首先创建一个拉格朗日算子

其中称为拉格朗日乘数。

令参数的偏导数为0：

解方程组，求得w为最优解。

拉格朗日乘数法的扩展形式

假设有一个优化问题，称为原始问题p

首先创建一个拉格朗日算子

接着定义

当约束条件满足的时候，即

否则，任一约束不满足

考虑这样的优化问题

实际上等价于原始问题p

对偶问题：

定义

考虑这样的优化问题

这就是对偶问题。注意到对偶问题和原始问题的区别是，对偶问题的求最大值和求最小值的顺序刚好和原始问题相反。

一个事实是 .即最大值的最小值一定大于最小值的最大值。

在特定条件下，原始问题和对偶问题会得到相同的解。因此满足某些条件时，可以用对偶问题的解代替原始问题的解。

通常来说，对偶问题会比原始问题简单，并且具有一些有用的性质。

使原始问题和对偶问题等价的条件：

令f为凸函数 (Hessian H>=0)

假设是仿射函数

接着假设严格可执行（注意是小于，而不是小于等于）

所以，，使得是原始问题的解，是对偶问题的解，并且

KKT(Karush-kuhn-Tucker)互补条件：

(1)

(2)

(3)

(4)

(5)

根据条件(3)，一般情况下

这不是绝对成立的，因为可能两个值都为0.

当成立时，我们称是一个active constraint（活动约束）。

3.最优间隔分类器对偶问题

原始问题

约束为

这是一个活动约束

当意味着训练样本的函数间隔等于1.

从上图可以看出，通常情况下，一个最优化问题的解只和特别少的样本有关。例如，上图的所有点中，只有离超平面分隔线最近的三个点，他们的函数间隔为1，拉格朗日乘数不为0，这三个样本我们称之为支持向量(support vectors)

拉格朗日算子

对偶问题为

为了求解对偶问题，我们需要对w，b求偏导数，并令偏导数为0 得到拉格朗日算子取极小值时的w,b。

将上述两条约束代入拉格朗日算子

　　　　　　

因此对偶问题可以描述为

求解上述对偶问题，解出，那么

我们可以将整个算法表示成内积的形式

4.核方法

在SVM的特征向量空间中，有时候训练样本的维数非常高，甚至是无限维的向量。但是你可以使用来高效地计算内积，而不必把x显式的表示出来。

这个结论仅对一些特定的特征空间成立。

第七讲完。

　　　　　　　

时间： 2025-01-10 12:45:18

（笔记）斯坦福机器学习第七讲--最优间隔分类器的相关文章

机器学习-斯坦福：学习笔记7-最优间隔分类器问题

最优间隔分类器问题本次课程大纲: 1. 最优间隔分类器 2. 原始优化问题&对偶优化问题(KKT条件) 3. SVM对偶问题 4. 核方法(下一讲) 复习: 支撑向量机中改动的符号: 输出y∈{-1,+1} h输出的假设值也改为{-1,+1} g(z) = { 1 , 如果z>=0; -1, 如果z<0} hw.b(x)=g(wTx+b),这里的b相当于原来的θ0,w相当于原来θ除去θ0剩余部分,长度为n维.将截距b单提出来,方便引出支撑向量机. 函数间隔: 一个超平面(w,b)和

斯坦福《机器学习》Lesson7感想———1、最优间隔分类器

从上一课可知,对于给定的线性可分的数据集,离分隔超平面最近的点是支持向量.而支持向量与分隔超平面间的距离越远,则说明最后算法的预测结果越可信.这课的核心就在于如何确定最佳的分隔超平面,即最优间隔分类器. 首先我们要介绍其中的数学推理,然后介绍最优间隔分类器. 1.凸优化问题选取一个函数里的两个点,连接两个点成一条直线,两点间的函数点都在这条直线下即为凸函数,凸函数的例子有指数函数.当一个问题被转化为凸优化问题,说明这个问题可以很好被解决.对于凸优化问题来说,局部最优解就是全局最优解. 给定一个

最优间隔分类器

最优间隔分类器最优间隔分类器对于一个给定的数据集,目前有一个很现实的需求就是要找到一个合适的决策边界,使得样本中的最小间隔(几何间隔)最大,而且这样的分类器能够使得分割的训练样本集之间的间隔(gap)最大.现在,我们假设训练集合线性可分,即可以找一条超平面把正样本和负样本分割开来.那么我们如何找到一个超平面来最大化几何间隔呢?我们得到了如下的优化问题: maxγ,w,b γ s.t. y(i)(wTx(i)+ b) ≥ γ, i = 1, . . . , m ||w|| = 1 也就是说,我

（笔记）斯坦福机器学习第六讲--朴素贝叶斯

本讲内容 1. Naive Bayes(朴素贝叶斯) 2.Event models(朴素贝叶斯的事件模型) 3.Neural network (神经网络) 4.Support vector machines(支持向量机) 1.朴素贝叶斯上讲中的垃圾邮件问题有几个需要注意的地方: (1) 一个单词只有出现和不出现两种可能,因此每个特征x只有两个取值 (2) 特征向量x的个数应该等于词典的长度,比如将该算法一般化: (1) 让可以取更多的值此时服从多项式分布,而不再是伯努利分布.一种

Stanford机器学习---第七讲. 机器学习系统设计

本文原始版本见http://blog.csdn.net/abcjennifer/article/details/7834256 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.所有内容均来自Standford公开课mach

（笔记）斯坦福机器学习第四讲--牛顿法

本讲内容 1. Newton's method(牛顿法) 2. Exponential Family(指数簇) 3. Generalized Linear Models(GLMs)(广义线性模型) 1.牛顿法假如有函数, 寻找使得牛顿法的步骤如下: (1) initialize as some value. 上图中用初始化的值 (2) 在这一点上对f求值得到,之后计算这一点的导数值 (3) 作该点的切线,得到与横轴的交点的值,此为牛顿法的一次迭代. 更新公式为我

机器学习第七讲：Support Vector Machines 1

引言这一讲及接下来的几讲,我们要介绍supervised learning 算法中最好的算法之一:Support Vector Machines (SVM,支持向量机).为了介绍支持向量机,我们先讨论"边界"的概念,接下来,我们将讨论优化的边界分类器,并将引出拉格朗日数乘法.我们还会给出 kernel function 的概念,利用 kernel function,可以有效地处理高维(甚至无限维数)的特征向量,最后,我们会介绍SMO算法,该算法说明了如何高效地实现SVM. Margi

支持向量机(SVM)（三）-- 最优间隔分类器（optimal margin classifier）

在之前为了寻找最有分类器,我们提出了例如以下优化问题: 在这里我们能够把约束条件改写成例如以下: 首先我们看以下的图示: 非常显然我们能够看出实线是最大间隔超平面,如果×号的是正例,圆圈的是负例.在虚线上的点和在实线上面的两个一共这三个点称作支持向量.如今我们结合KKT条件分析下这个图. 我们从式子和式子能够看出假设那么, 这个也就说明时.w处于可行域的边界上,这时才是起作用的约束. 1.那我们如今能够构造拉格朗日函数例如以下: 注意到这里仅仅有没有是由于原问题中没有等式约束,仅仅有不等式约束.

最优间隔分类器中为什么最大化1/||w||和最小化1/2*w^2等价

转自http://www.cnblogs.com/ldphoebe/p/5000769.html 函数间隔的取值并不影响最优化问题的解,因为成比例的改变w和b目标函数和约束条件都不受到影响,所以我们可以让函数间隔为1. 目标函数就变为1/||w||,由于让1/||w||最大化,等价于让分母||w||最小化,为今后求导方便,把1/||w||的最大化等价为的极小化.

猜你喜欢

最小生成树专题

最小生成树专题在这里贴最近刷的最小生成树的一些题目占个坑以后再来做个总结最小生成树 prime + 队列优化最小生成树 prime poj1258 最小生成树 prime poj1287 最 ...

HDU 1171 Big Event in HDU (多重背包变形)

Big Event in HDU Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...

Linux硬件相关

1)查看设备号/厂商号 http://blog.csdn.net/styshoo/article/details/51203881

bat脚本程序创建wifi热点

@echo off color 0b netsh wlan set hostednetwork mode=allow ssid=wenxi key=13141516 cls echo 输入" ...

不可以！（快考试了做些简单题）

不可以! 时间限制:1000 ms | 内存限制:65535 KB 描述判断:两个数x.y的正负性. 要求:不可以使用比较运算符,即"<",">&quo ...

例题6-22 战场 UVa11853

1.题目描述:点击打开链接 2.解题思路:本题初看起来比较麻烦,不妨简化一下:先判断是否有解,再考虑如何求出解.根据题意描述,相当于在一个正方形中有若干个圆形障碍物,问是否能从左边界走到右边界.判断是 ...

ASP.NET MVC 开发中遇到的两个小问题

最近在做一个网站,用asp.net MVC4.0来开发,今天遇到了两个小问题,通过查找相关渠道解决了,在这里把这两个问题写出来,问题非常简单,不喜勿喷,mark之希望可以给遇到相同问题的初学者一点帮助 ...

CORS简介

现在请跟我做:在您的浏览器的地址栏中输入www.yhd.com并敲击回车.在网站内容全部加载完毕后,按F12打开浏览器的调试窗口.当切换到Sources页时,您会发现您当前所看到的一号店的页面是从多个 ...

时间流逝

不知不觉来深圳快三年,感觉自己啥都没有做成,时间就已经跑远了,当初的梦想越来越远,留给自己的只是一声长叹! 回想这些年下来,走了很多弯路,学习的东西特别杂乱,从前端到后端都有涉猎,比如后端:.NET, ...

Spark日志分析项目Demo(9)--常规性能调优

一分配更多资源分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的:基本上,在一定范围之内,增加资源与性能的提升,是成正比的:写完了一个复杂的spark作业之后 ...

基于Solr和Zookeeper的分布式搜索方案的配置

1.1 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候 ...

Objective-C 和 C++ 的区别有哪些?

Objective-C开发语言是扩充C的面向对象编程语言,iOS开发是用的Objective-C语言,但是最近微软透露Objective C新技术,其最新IDE Visual Studio 2015能 ...

Python学习中的随笔，好记性不如烂笔头

本文为博主看了 vamei 的blog 写下的随笔 . 致敬Vamei 1.type() 可以显示参数的类型如 : a=12 type(a) 为 int 2.python的基本类型为 i ...

Golang 笔记 1

一.Go语言基础 1. 基础 Go语言中的标识符必须以字母(Unicode字母,PHP/JS可以用中文作为变量名)下划线开头.大写字母跟小写字母是不同的:Hello和hello是两个不同的名字. G ...

C# access数据库软件使用事务插入多条记录

C# access数据库软件使用事务插入多条记录 protected void Button1_Click(object sender, EventArgs e) { /*=============测 ...

Android安全-代码安全1-ProGuard混淆处理

Android安全-代码安全1-ProGuard混淆处理 ProGuard简介 ProGuard是一个SourceForge上非常知名的开源项目.官网网址是:http://proguard.sourc ...

虚函数简介

一.虚函数 C++中用于实现多态(polymorphism)的机制.核心理念就是通过基类访问派生类定义的函数.假设我们有下面的类层次: class A { public: virtual void f ...

Arrays Multi

<!DOCTYPE html><html><body><?php$cars = array ( array("Volvo",22, ...

2016年的寒潮为什么称为”世纪寒潮”

原文来自:http://smaij.com/cold-wave/ 广东的朋友圈下起雪了往日旺盛的街道.竟无一人.所有的人不是已经冻成狗就是躲在被窝避难~~ 看到这句话,你感觉到寒冷了吗?在这个人称不 ...

正则里的.*?

?匹配0次或1次.但是?还有第二个含义,作为正则的懒惰模式.正则有两种模式,一种为贪婪模式(默认),另外一种为懒惰模式,以下为例:(abc)dfe(gh)对上面这个字符串使用(.*)将会匹配整个字符串 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.