机器学习基石第二讲笔记

第二讲介绍了Perceptron Learning Algorithm (PLA),是以后学习的基础。

PLA是二元的线性分类器,类似于神经感受器,用于做是非题。

1. PLA的假设函数:h(x) = sign(wx)。

  这里w‘是列向量,x是行向量。x代表一个数据点,这个点可能包含了d个维度,即x = (x1, x2, ..., xd)。举例来说,x可以是一个人,里面包含了人的各种特征,比如年龄、性别、职业、收入等等。w‘是每个维度所占的权重。比如银行要给客户发信用卡,就要考虑客户各个方面以决定是否发卡。每个方面重要性可能不同,比如收入可能重要一些,则相应的权重高一些。当客户的综合能力超过某个阈值时,银行就可以发卡;没有达到时,银行就不发卡。把这个阈值作为第0维,整合到w‘中。h(x)只有两个取值{+1, -1},对应于发卡和不发卡。PLA的目的是根据已有资料找到一个w‘,这个w‘能根据已经分好类的资料,学会如何分类,并用于新的数据。

2. 算法描述(知错能改):

  从某个w0开始,当找到一个点(xn(t), yn(t)),使得sign(wtxn(t)) ≠ yn(t)时,更正wt+1‘ = wt‘ + yn(t)xn(t),直到没有错误,不用更正为止。将最后一个w作为找到的假设g。

3. PLA的前提:数据D线性可分。

  当数据D线性可分时,可以保证最后找到的w就是目标f所对应的wf。证明思路:每次更正,都会使wtwf的内积增大。内积增大有两个原因,一个是两个向量靠近(夹角变小)了,一个是两个向量模变大了。可以证明wt的模的增长是有上界的。所以,每次更正都会使wt接近wf,最终找到wf。更正次数T是有上界的。证明如下:

4. PLA的优缺点:

  优点:简单,快速,可用于任意维度

  缺点:必须假设数据线性可分,不知道何时停止(尽管实际很快)

5. 有噪音情况的PLA:更正时,保留错误最少的wt

时间: 2024-08-06 17:19:36

机器学习基石第二讲笔记的相关文章

机器学习基石第二讲:learn to answer yes/no

博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完成了机器学习基石的第二讲,主要介绍了机器学习的定义,PLA算法和pocket PLA算法.下面将笔记整理在下面. Perceptron Hypothesis Set 延续前面的信用卡发放问题.银行已有的用户数据可能包括用户的年龄.年薪.工作时长.债务情况等特征信息,我们分别用x1,x2,-,xd来表示,那么对于每一个用户都有一个向量来表示其信息.我们为每一个特征信息分配一个权

机器学习基石第一讲笔记

近来觉得机器学习愈发重要.有人推荐了台大林轩田老师讲授的“机器学习基石”,感觉林老师讲得生动清楚,是很好的课程,值得一学. 第一讲介绍了机器学习是什么,使用机器学习的条件,机器学习的模型是怎样的. 1. 机器学习是一种处理复杂系统的方法,这里老师举了4个例子: (1) when human cannot program the system manually --navigating on Mars(2) when human cannot 'define the solution' easil

机器学习基石第一讲:the learning problem

博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) Andrew Ng的Machine Learning比較简单,已经看完.林田轩的机器学习基石很多其它的是从概率论的角度来介绍机器学习,之前的视频已经听了大半.但好多都是模棱两可. 如今从头開始,认真整理笔记.笔记的结构遵从课程视频的结构. 以下是机器学习基石的第一讲:the learning problem Course Introduction 机器学习是一门理论和实践相结合的课

斯坦福吴恩达教授机器学习公开课第二讲笔记——有/无监督学习+线性回归

机器学习基石第五讲笔记

通过前四讲可知,在假设集大小(M)有限的条件下,机器是可以学习的.第五讲的目的是解决M为无限大时,机器是否能学习的问题. 为什么在假设集大小(M)有限的条件下,机器是可以学习的? 1. 其依据是Hoeffding不等式: 这个不等式说明了,训练集的错误率Ein(g)和测试集的错误率Eout(g)的差距太大(>ε)这件事情发生的概率是有上界的,这个上界由M.ε和N(样本量大小)决定. 这个不等式的由来是在第四讲之中.如果某份资料对于假设集的全体,至少存在一个假设g使得Ein(g)和Eout(g)的

机器学习基石第三讲笔记

第三讲介绍了不同类型的机器学习问题,根据4个方面划分:输出空间,标签,方式,输入空间. 1. 根据输出空间y不同划分:通过变换y的种类,可得到不同的机器学习问题 (1)y = {+1, -1}:二元分类问题,类似于做是非题,机器学习的基础. (2)y = {0, 1, 2, ..., k}:k元分类问题,类似于做单选题. (3)y = R:回归分析. (4)y = structures:structured learning,给定一段序列,判断序列的各个部分属于哪种结构.比如,输入一个句子,判断

NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)

课讲内容 这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周.依上所述,課程的規畫如下: When Can Machines Learn? [何时可以使用机器学习] 第一周:(NTU-Coursera机器学习:机器学习问题与二元分类) 第一讲:The Learning Problem [机器学习问题]第二讲:Learning to Answ

机器学习基石笔记10——机器可以怎样学习(2)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石——第1-2讲.The Learning Problem

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第一讲-------The Learning Problem 一.课程总体 Machine Learning是一个理论与应用混合的工具,本课程则主要是f