《机器学习》西瓜书第六章支持向量机

支持向量机分为:线性可分支持向量机、线性支持向量机、非线性支持向量机

线性可分支持向量机:训练数据线性可分,通过硬间隔最大化,学习一个线性的分类器;

线性支持向量机:训练数据近似线性可分,通过软间隔最大化,学习一个线性分类器

非线性支持向量机:训练数据线性不可分,通过使用核技巧以及软间隔最大化,学习一个非线性支持向量机。

6.1 间隔与支持向量

在样本空间中,划分超平面课通过如下线性方程来描述:  ωT x+ b = 0   其中ω = (ω1;ω2;...;ωd  )为法向量,决定超平面的方向;b为位移向量,决定超平面与原点之间的距离。

样本空间中任意点x到超平面(ω,b)的距离为   

,距离超平面最近的几个训练样本点,使该式等号成立,他们被称为“支持向量”,两个异类支持向量到超平面距离之和为  2/||ω||,他被称为“间隔”。

支持向量机的基本型 :

6.2 对偶问题

我们希望求解式6.6得到大间隔划分超平面所对应的模型

对式6.6添加拉格朗日乘子αi≥0,则该问题的拉格朗日函数可写为,对ω和b求偏导为0,带入后得式6.6的对偶问题:

支持向量机的重要性质:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。

6.3  核函数

原始样本空间内也许并不存在一个能正确划分两类样本的超平面,对于这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。

定理 6.1(核函数)令χ为输入空间,Κ(.,.)是定义在χ x χ上的对称函数,则k是核函数当且仅当对于任意数据D={x1,x2,...,xm},核矩阵K总是半正定的。只要有一个对称函数所对应的核函数半正定,它就能作为核函数使用。

若k1、 k2为核函数,则其线性组合也是核函数;

若k1、 k2为核函数,则核的直积也是核函数;

若k1为核函数,则对于任意函数g(x),也是核函数。

6.4  软间隔与正则化

软间隔:允许某些样本不满足约束。当然在最大化间隔的同时,不满足约束的样本应尽可能小。于是,优化目标应写为:

C>0是一个常数,是“0/1损失函数”。

替代损失函数:

常用的“软间隔支持向量机”:

如果使用对率损失函数来替代0/1损失函数,则几乎就得到了对率回归模型。实际上,支持向量机与对率回归的优化目标相近,通常情况下性能也相当。对率回归上午优势在于其输出具有自然的概率意义而支持向量机不具有概率意义。概率回归能直接应用于多分类任务,支持向量机则需对此进行推广。另一方面,hinge损失有一块“平坦”的零区域,使得支持向量机的解具有稀疏性,而对率损失则是光滑的单调递减函数。不能导出类似支持向量的概念。因此对率回归的解决依赖于更多的训练样本,其预测开销更大。

优化目标中的第一项用来描述划分平面的“间隔”大小,另一项用来表述训练集上的误差。,其中Ω(f)称为“结构风险”,用于描述魔性的某些性质;第二项称为“经验风险”,用于描述模型与训练数据的契合程度;C用于对二者进行折中。

6.5  支持向量回归 SVR

支持向量回归假设我们能容忍f(x)与y之间最多有ε的偏差,仅当f(x)与y之间差别的绝对值大于ε才计算损失。

6.6 核方法

给定训练样本,若不考虑偏移项b,则无论SVM还是SVR,学得的模型总能表示成核函数的线性组合。

原文地址:https://www.cnblogs.com/ttzz/p/11548518.html

时间: 2024-08-29 09:55:20

《机器学习》西瓜书第六章支持向量机的相关文章

《机器学习》西瓜书第七章贝叶斯分类器

先验概率:基于已有知识对司机事件进行概率预估,但不考虑任何相关因素. 后验概率:基于已有知识对随机事件进行概率预估,并考虑相关因素P(c|X). 7.1  贝叶斯决策论 贝叶斯决策论是概率框架下实施决策的基本方法.贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记. 在样本x上的“条件风险”: 我们的任务是寻找一个判定准则h:以最小化总体风险   贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择哪个能使条件风险R(c|x)最小的类别标记. h*称为贝叶斯最优分类器,与之对应的总

《机器学习》西瓜书第四章决策树

本章主要对决策树算法进行了讲解,主要有决策树的生成过程.决策树的划分选择.决策树的剪枝处理.连续与缺失值的处理以及多变量决策树. 4.1 基本流程 决策树是基于树的结构来进行决策的.包含一个根节点.若干内部节点和若干叶节点.叶节点对应于决策结果,其他每个结点对应于一个属性测试. 决策树学习的目的是产生一颗泛化能力强的决策树,其基本流程遵循简单的“分而治之”策略. 决策树学习的基本算法 输入:训练集D = {(x1,y1),(x2,y2),...,(xn,yn)}; 属性集 A = {a1,a2,

西瓜书第三章 线性模型

读书笔记 周志华老师的<机器学习> 因为边看边记,所以写在随笔里,如果涉及版权问题,请您联系我立马删除,[email protected] 3.1 基本形式 给定d个属性描述的示例 x = (x_1;x_2;...;x_3), 其中x_i是X在第i个属性上的取值,线性模型视图学得一个通过属性的线性组合来进行预测的函数,即 f(x) = w_1*x_1 + w_2*x_2 + ... + w_d*x_d + b, 向量形式 其中 w = (w_1;w_2;...;w_d). w直观表达了各属性在

OpenGL蓝宝书第六章代码疑虑:为什么使用了GL_TEXTURE_1D??纹理和顶点间的映射是如何实现?

遇到一个大问题,明明加载纹理绑定的是GL_TEXTURE_2D glUniform1i(locCloudTex, 1); //明明默认为0,参数却不是0. 可是原书中代码确是 glGenTextures(1, &uiTexture); glBindTexture(GL_TEXTURE_1D, uiTexture); // LoadTGATexture("Clouds.tga", GL_LINEAR, GL_LINEAR, GL_CLAMP_TO_EDGE); glUniform

西瓜书第四章 决策树

读书笔记 周志华老师的<机器学习> 4.1 基本流程 一个决策树包含一个根结点.若干个内部结点和若干个叶结点:叶结点对应于决策结果,其他每个结点则对应于一个属性测试:每个结点包含的样本集合根据属性测试的结果被划分到子结点中:根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列. 决策树的生成是一个递归过程,在决策树基本算法中,有三种情形会导致递归返回:(1)当前节点包含的样本全属于同一类别,无需划分:(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分:把当前结点标

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector:

《机器学习》 西瓜书习题 第 2 章

习题 \(2.1\) 数据集包含 \(1000\) 个样本, 其中 \(500\) 个正例.\(500\) 个反例, 将其划分为包含 \(70\%\) 样本的训练集和 \(30\%\) 样本的测试集用于留出法评估, 试估算共有多少种划分方式. 如果划分要保证正例和反例一样多的话, 那么划分方式数量 \(n\) 有 \[\begin{aligned} n &= C^{500\times35\%}_{500}\times C_{500}^{500\times 35\%}\&=(C^{175}_

【转】《西瓜书机器学习详细公式推导版》发布

转自:https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的<机器学习>(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,

《机器学习》 --周志华版(西瓜书)--课后参考答案

<机器学习> --周志华版(西瓜书)--课后参考答案 对机器学习一直很感兴趣,也曾阅读过李航老师的<统计学习导论>和Springer的<统计学习导论-基于R应用>等相关书籍,但总感觉自己缺乏深入的理解和系统的实践.最近从实验室角落觅得南京大学周志华老师<机器学习>一书,随意翻看之间便被本书内容文笔深深吸引,如获至宝.遂决定要认真学习本书并将学习过程记录下来.感觉若以读书笔记的形式做记录未免枯燥(且网上已有大量相关内容).那就暂且将课后练习的个人思路和答案写成