PLA能收敛的证明

题:如果资料D线性可分,PLA如何保证最后能得到最优解。

思路:假设$w_f$能够分割资料D,$w_{t+1}$经过更新$w_{t+1}=w_t + y_{n(t)}x_{n(t)}$后,与$w_f$更接近

两个向量更接近,则有$Z=\frac{w_f^Tw_t}{||w_f||||w_t||}$越大

其中$w_f^tw_t=w_f^tw_{t-1}+w_f^ty_{n(i)}x_{n(i)}=w_f^tw_0+w_f^t\sum_i^t y_{n(i)}x_{n(i)}$
令$w_0=0$,则$w_f^tw_t \geq 0+t min(w_f^ty_{n(i)}x_{n(i)})$

同理,由于只有$y_{n(t)}w_{t-1}^tx_{n(t)} < 0 $ 才进行更新
$||w_{t}||^2=||w_{t-1}||^2 + 2y_{n(t)}w_{t-1}^tx_{n(t)}+||y_{n(t)}x_{n(t)}||^2 < ||w_{t-1}||^2 + 0 + max||x_{n(i)}||^2$

有$Z > \frac{t min(y_{n(i)}w_f^tx_{n(i)})}{||w_f||\sqrt{t max||x_{n(i)}||^2}}=\sqrt{t}\frac{min(y_{n(i)}w_f^tx_{n(i)})/||w_f||}{max||x_{n(i)}||}$

时间: 2024-11-10 10:51:11

PLA能收敛的证明的相关文章

台大林轩田机器学习课程笔记----机器学习初探及PLA算法

机器学习初探 1.什么是机器学习 学习指的是一个人在观察事物的过程中所提炼出的技能,相比于学习,机器学习指的就是让计算机在一堆数据中通过观察获得某些经验(即数学模型),从而提升某些方面(例如推荐系统的精度)的性能(可测量的). 2.机器学习使用的条件 需要有规则可以学习 有事先准备好的数据 编程很难做到 3.机器学习所组成的元素 输入X 输出 Y 目标函数f:X->Y 数据(训练集):D={(x1,y1),(x2,y2),-.(xn,yn)}假设(skill):g:X->Y 4.如何使用机器学

Coursera机器学习基石 第2讲:感知器

第一讲中我们学习了一个机器学习系统的完整框架,包含以下3部分:训练集.假设集.学习算法 一个机器学习系统的工作原理是:学习算法根据训练集,从假设集合H中选择一个最好的假设g,使得g与目标函数f尽可能低接近.H称为假设空间,是由一个学习模型的参数决定的假设构成的一个空间.而我们这周就要学习一个特定的H——感知器模型. 感知器模型在神经网络发展历史中占有特殊地位,并且是第一个具有完整算法描述的神经网络学习算法(称为感知器学习算法:PLA).这个算法是由一位心理学家Rosenblatt在1958年提出

Learning From Data 第一章总结

之前上了台大的机器学习基石课程,里面用的教材是<Learning from data>,最近看了看觉得不错,打算深入看下去,内容上和台大的课程差不太多,但是有些点讲的更深入,想了解课程里面讲什么的童鞋可以看我之前关于课程的第一章总结列表: 机器学习定义及PLA算法 机器学习的分类 机器学习的可能性 我打算边看书边复习讲义,然后用自己的话把每章能看懂的点总结下,欢迎大家指正.由于用语会尽量口语保证易懂,所以会有失严谨性,具体的细节可以看本书.<Learning from data>

word2vec skip-gram系列2

CBOW和Skip-gram模型 word2vec有两个模型,分别是CBOW和Skip-gram模型.这两个模型又都可以有两种优化方法.分别是 Hierarchical Softmax与Negative Sampling .所以实现word2vec有四种方式: 2013年末,Google发布的word2vec引起了一帮人的热捧.在大量赞叹word2vec的微博或者短文中,几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力了".但实际上,简单

整理阅读的论文(一)

这篇文章的基本思想(文中称为Local tangential lifting method,简称LTL)为将三维曲面上的三角形网格光顺(mesh smooth)问题通过投影转化到法平面上的二维网格上讨论(详见 3.1).其中,法平面的确定采用点邻接三角形的法线加权平均法(权因子选择的是点离三角形重心距离平方的倒数来确定,详见Equ(13)).      在 3.2 节中,通过 Taylor 展式来动态地确定离散 Laplace 算子的系数(普通的 Laplace 算子要么采用 uniform w

【转载】(EM算法)The EM Algorithm

(EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法.在之后的MT中的词对齐中也用到了.在Mitchell的书中也提到EM可以用于贝叶斯网络中. 下面主要介绍EM的整个推导过程. 1. Jensen不等式 回顾优化理论中的一些概念.设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数.当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数.如果或者,那么称f

统计学习方法:感知机

作者:桂. 时间:2017-04-16  11:53:22 链接:http://www.cnblogs.com/xingshansi/p/6718503.html 前言 今天开始学习李航的<统计学习方法>,考虑到之前看<自适应滤波>,写的过于琐碎,拓展也略显啰嗦,这次的学习笔记只记录书籍有关的内容.前段时间朋友送了一本<机器学习实战>,想着借此增加点文中算法的代码实现,以加深对内容的理解.本文梳理书本第二章:感知机(Perceptron). 1)原理介绍 2)代码实现

【转】11位机器学习大牛最爱算法全解

转自:http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2651987052&idx=3&sn=b6e756afd2186700d01e2dc705d37294&chksm=f121689dc656e18bef9dbd549830d5f652568f00248d9fad6628039e9d7a6030de4f2284373c&scene=25#wechat_redirect 1.Yann LeCun,Faceb

GMM的EM算法实现

在聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了具体说明.本文主要针对怎样用EM算法在混合高斯模型下进行聚类进行代码上的分析说明. 1. GMM模型: 每一个 GMM 由 K 个 Gaussian 分布组成,每一个 Gaussian 称为一个"Component",这些 Component 线性加成在一起就组成了 GMM 的概率密