机器学习基石--学习笔记02--Hard Dual SVM

背景

上一篇文章总结了linear hard SVM,解法很直观,直接从SVM的定义出发,经过等价变换,转成QP问题求解。这一讲,从另一个角度描述hard SVM的解法,不那么直观,但是可以避免feature转换时的数据计算,这样就可以利用一些很高纬度(甚至是无限维度)的feature转换,得到一些更精细的解。

?

拉格朗日乘子式

首先,回顾一下SVM问题的定义,如下:


线性约束很烦,不方便优化,是否有一种方法可以将线性约束放到优化问题本身,这样就可以无拘无束的优化,而不用考虑线性约束了。拉格朗日大神提供了一种方法,可以达到这个目的,称之为拉格朗日乘子式(更通用的方法参考文章"简易解说拉格朗日对偶"),形式如下,

这个公式是不是很奇怪,无端的多处了N个变量,但是再看下面的变化,就知道这个拉格朗日乘子式的厉害了。

?

什么,SVM问题等于右边那个min max?没错,虽然初看感觉不科学,但是仔细分析,的确如此。首先,由于,令f(w,b) = ,

?

当f(w,b) > 0,在w,b固定的情况下,,max会将放大到;

当f(w,b)0,那么,那么。

所以,综合两种情况,SVM问题与min max变换公式等价。是不是很奇妙,不得不佩服拉格朗日大神。

?

?

对偶变换

上面的问题中min max的形式不方便求解,不过可以通过一番变化,导出max min的形式,这样就可以从内到外,先计算里面的min,然后计算外面的max。这种变化叫对偶变化。

首先选任意一个固定的,并且,那么有

两边通过w,b取min,等式仍然成立,即

有多重选择,但是上面的不等式一致成立,所以在众多的选择一个最大,上面的等式变形为,

?

这样,min max就和max min建立了一定的联系,但是由于是"",称之为弱对偶(week duality)。""强对偶(strong duality)如何才能成立呢?需要满足下面的条件,

  • 原始问题是凸问题
  • 原始问题线性可分
  • 线性约束条件

太桥了,SVM问题完全符合上述约束,所以是对偶,这样可以通过解右边max min的问题来得到最终解!

?

问题化简

经过上面的对偶变化,下面来一步一步的简化我们的原始问题,

首先对b求偏导数,并且为0,有如下结果

带入这个结果到上面的公司,化简

?

接下啦,对w求偏导数,

?

?

所以,向量w为

将w带入,并且去掉min,得到如下

执行到这里,现在目标函数只与有关,形式满足QP,可以轻易得到,也就是得到w。但是在计算过程中,需要计算一个中间矩阵Q,维度为N*N,这个是主要计算开销。上一讲无需计算这个Q,因为Q的形式十分简单。

?

问题来了,如何求解b,上面的目标函数中,在之前的简化过程中消去了b,已经与b无关。

?

计算b

现在只剩下最后一个问题,如何计算b? 在之前的简化过程中消去了b,上面的QP解与无关。

?

KKT条件帮助我们解决这个问题。如果原始问题和对偶问题都有最优解,且解相同,那么会满足KKT条件。这也是一个充分必要条件,其中很重要的一点是complementary slackness(互补松弛性),该条件有下面等式成立,

由于(对偶条件),且(原始条件),那么两者有一个不为0时,另外一个必然为0。所以,只要找到一个,就可以利用这个性质计算出b,计算方法如下:

两边乘以,

理论来说,只需要一个点就可以,但是实际上由于计算有误差,可能会计算所有的b,然后求平均。并且这些可以计算出b的点,就是支持向量,因为他们满足了原始问题中支撑向量的定义。但是,并不是所有的支撑向量,都有对应的。一般的,我们只用的向量称为支撑向量,而那些满足支撑向量定义的向量称之为候选支撑向量,有如下关系

并且,为了简化计算,在计算w的时候,的计算均可以省去,如下

w的哲学

通过上面的计算,其实最后w是()的线性组合。同样的,PLA中w也是()的线性组合。只是SVM利用支撑向量求解这个线性组合,PLA使用错误的向量。同理,逻辑回归,线性回归也有类似规律,称这种现象为"w represented by data"。

总结

本节使用对偶问题,从另外一个侧面求解了SVM,并且数据学推导相对复杂,计算量也增加了许多,因为需要求解一个N*N维度的矩阵Q。但是,为什么要做这些事情呢,hard linear SVM要简单许多复?其实换成对偶问题是为了利用kernel做铺垫,改kernel可以将维度转化的计算省略,从而可以计算很复杂的转化,这一点下一节讨论。

?

?

PS:划线部分段落是由于包含公式,无法正常显示,所以采用图片方式在下方显示。

时间: 2024-10-03 13:05:36

机器学习基石--学习笔记02--Hard Dual SVM的相关文章

机器学习基石--学习笔记01--linear hard SVM

背景 支持向量机(SVM)背后的数学知识比较复杂,之前尝试过在网上搜索一些资料自学,但是效果不佳.所以,在我的数据挖掘工具箱中,一直不会使用SVM这个利器.最近,台大林轩田老师在Coursera上的机器学习技法课程上有很详细的讲授SVM的原理,所以机会难得,一定要好好把握这次机会,将SVM背后的原理梳理清楚并记录下来.这篇文章总结第一讲linear hard SVM的相关内容. ? ? 最好的分割线 之前有讲过PLA,即在线性可分的数据中,找到一条线,能够区分开正负样本,如下所示: 上面三条线,

【OpenGL 学习笔记02】宽点画线

我们要知道,有三种绘图操作是最基本的:清除窗口,绘制几何图形,绘制光栅化对象. 光栅化对象后面再解释. 1.清除窗口 比如我们可以同时清除颜色缓冲区和深度缓冲区 glClearColor (0.0, 0.0, 0.0, 0.0);//指定颜色缓冲区清除为黑色 glClearDepth(1.0);//指定深度缓冲区的清除值为1.0 glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT);//指定要清除的缓冲区并清除 2.绘制几何图形 先要设置绘制颜色,

SWIFT学习笔记02

1.//下面的这些浮点字面量都等于十进制的12.1875: let decimalDouble = 12.1875 let exponentDouble = 1.21875e1 let hexadecimalDouble = 0xC.3p0//==12+3*(1/16) 2.//类型别名,用typealias关键字来定义类型别名 typealias AudioSample = UInt16 var maxAmplitudeFound = AudioSample.min 3.//元组 let ht

Blender学习笔记 | 02 | 操作

Shift 点击不同图层 同时显示多图层物件 z 切换 Solid / Wireframe 视图模式 点选物件后M 移动到图层选项 Ctrl + 鼠标左键拖动 自由全选物件 B 方形区域圈选物件 Tab Object / Edit Mode 切换 T 开 / 关 侧栏 Ctrl + Tab 编辑状态下切换编辑对象 E Extrude Region 推挤区域.以发现为轴线. X 删除物件菜单 Blender学习笔记 | 02 | 操作,布布扣,bubuko.com

《机器学习》学习笔记(一)

今天看了两集Stanford 的Machine Learning,先说说感受,在看的过程中,脑海里冒出来一个念头:在中国的大学里,教授们都是好像在做研究,而学生们都是好像在上课,到头来不知道学到了什么,我在屏幕的这边都能感受到他们和我们的不一样. 其实对于机器学习,我是真心不懂,也不知道为什么忽然就想学习一下了,然后看了第一集就觉得实在是太牛X了,他们做的那个爬越障碍物的狗和快速避障的小车,都不是我们能搞出来的,说来也奇怪,我们不是也有他们一样的课程体系吗?照理说在大学里能做出来的东西,我们也应

mongodb 学习笔记 02 -- CURD操作

mongodb 学习笔记 02 – CURD操作 CURD代表创建(Create).更新(Update).读取(Read)和删除(Delete)操作 创建库 直接 use 库名 然后创建collection 就可以创建库 创建collecion db.createCollection("collectionName") 隐式创建collection db.collectionName.insert({xxxxxx}) 删除collection db.collectionName.dro

机器学习实战学习笔记(一)

1.k-近邻算法 算法原理: 存在一个样本数据集(训练样本集),并且我们知道样本集中的每个数据与其所属分类的对应关系.输入未知类别的数据后将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似(最近邻)的k组数据.然后将k组数据中出现次数最多的分类,来作为新数据的分类. 算法步骤: 计算已知类别数据集中的每一个点与当前点之前的距离.(相似度度量) 按照距离递增次序排序 选取与当前点距离最小的k个点 确定k个点所在类别的出现频率 返回频率最高的类别作为当前点的分类 py

软件测试之loadrunner学习笔记-02集合点

loadrunner学习笔记-02集合点 集合点函数可以帮助我们生成有效可控的并发操作.虽然在Controller中多用户负载的Vuser是一起开始运行脚本的,但是由于计算机的串行处理机制,脚本的运行随着时间的推移,并不能完全达到同步.这个时候需要手工的方式让用户在同一时间点上进行操作来测试系统并发处理的能力,而集合点函数就能实现这个功能. 可通过将集合点插入到 Vuser 脚本来指定会合位置.在 Vuser 执行脚本并遇到集合点时,脚本将暂停执行,Vuser 将等待 Controller 或控

Wojilu学习笔记 (02)

使用RequireJS (1)整个页面,应该只有一个 <script src="" > 标签,并且放在页面底部,用来引入 RequireJS 和 main.js 文件 <script data-main="~js/main" src="~js/lib/require-jquery-wojilu.js?v=#{jsVersion}"></script> (2)在页面头部的 <head> 部分,增加一行