机器学习基石第五讲笔记

通过前四讲可知,在假设集大小(M)有限的条件下,机器是可以学习的。第五讲的目的是解决M为无限大时,机器是否能学习的问题。

为什么在假设集大小(M)有限的条件下,机器是可以学习的?

1. 其依据是Hoeffding不等式:

这个不等式说明了,训练集的错误率Ein(g)和测试集的错误率Eout(g)的差距太大(>ε)这件事情发生的概率是有上界的,这个上界由M、ε和N(样本量大小)决定。

这个不等式的由来是在第四讲之中。如果某份资料对于假设集的全体,至少存在一个假设g使得Ein(g)和Eout(g)的差距大于ε,那么就认为这份资料是不好的。对于某一个假设h来说,P[|Ein(h) - Eout(h)| > ε] ≤ 2exp(-2ε2N)。因为假设集的大小是有限的,设为M,则有P[|Ein(g) - Eout(g)| > ε] ≤ 2Mexp(-2ε2N)

上式只对M有限时成立。当M为无限大时,尽管假设各不相同,但是它们之间的错误率可能是相似的,即有重叠部分。例,在PLA中,两条很接近的直线,可能把数据分成相似的两类。所以用上式来估计上界其实是过大了,忽略了不同假设之间错误率重叠的部分。因此,希望找到一个数m(<<M),重新估计这个上界。

如何找到代替M的m?

2. 考虑PLA的例子。尽管PLA的假设集是R2上的所有直线,但是对于无限多的直线,可以进行有限的分类。分类的依据是这条直线对数据如何分类。对数据给出相同分类的所有直线归成一类。这样若有N个数据点,则最多有2N类直线(因为PLA只将数据分成两类)。

3. 将PLA做延伸,依据输出空间的不同划分假设集H。假设H是包含所有假设的集合,h是H中的一个元素,将从输入空间中取出的一份含有N个点的资料(x1, x2, ..., xn)中的每一个点分成了两类中的某一类,即

称所有将相同资料归为同一类的假设组成的集合为dichotomy。比如,有一个h将资料的4个点全部判为圈圈,另外一个号也对这同样的4个点全部判为圈圈,那么这两个h就分在同一个dichotomy中。对于H来说,其包含的dicho的数量的上界为2N(一个点只能属于两类中的一类)。由于dichotomy的数量,取决于输入的数据的维度,例:若数据的维度为4,则至多有24种dichotomy,所以为了去除对输入的依赖,定义成长函数(growth function):

即在输入空间X中取N个点,使得dichotomy数量最大。比如PLA中,取1个点时,dichotomy数量为2,取2个点时为4,取3个点时最多为8(若3点共线,则只有6种)。其意义是,根据输入的N个点,H能将这N个点判为不同类型的组合的最大数量。

5. 若有N个点,根据这N个点做出的dichotomy包含了H的所有可能的dichotomy,则称这N个点shatter了H。比如,当只有一个点k时,只有两种dichotomy,即叉和圈。而H中刚好既有将这个点分为叉的假设,又有将这个点分为圈的假设,则称这个点shatter了H。

6. break point:第一个无法做出所有dichotomy的点。令mH(k) < 2k,可解出第一个无法做出所有dichotomy的k。当存在break point时,成长速度mH(N) = O(Nk-1)。

时间: 2024-08-13 03:36:54

机器学习基石第五讲笔记的相关文章

机器学习基石第一讲笔记

近来觉得机器学习愈发重要.有人推荐了台大林轩田老师讲授的“机器学习基石”,感觉林老师讲得生动清楚,是很好的课程,值得一学. 第一讲介绍了机器学习是什么,使用机器学习的条件,机器学习的模型是怎样的. 1. 机器学习是一种处理复杂系统的方法,这里老师举了4个例子: (1) when human cannot program the system manually --navigating on Mars(2) when human cannot 'define the solution' easil

机器学习基石第三讲笔记

第三讲介绍了不同类型的机器学习问题,根据4个方面划分:输出空间,标签,方式,输入空间. 1. 根据输出空间y不同划分:通过变换y的种类,可得到不同的机器学习问题 (1)y = {+1, -1}:二元分类问题,类似于做是非题,机器学习的基础. (2)y = {0, 1, 2, ..., k}:k元分类问题,类似于做单选题. (3)y = R:回归分析. (4)y = structures:structured learning,给定一段序列,判断序列的各个部分属于哪种结构.比如,输入一个句子,判断

机器学习基石第二讲笔记

第二讲介绍了Perceptron Learning Algorithm (PLA),是以后学习的基础. PLA是二元的线性分类器,类似于神经感受器,用于做是非题. 1. PLA的假设函数:h(x) = sign(w'x). 这里w'是列向量,x是行向量.x代表一个数据点,这个点可能包含了d个维度,即x = (x1, x2, ..., xd).举例来说,x可以是一个人,里面包含了人的各种特征,比如年龄.性别.职业.收入等等.w'是每个维度所占的权重.比如银行要给客户发信用卡,就要考虑客户各个方面以

机器学习基石笔记6——为什么机器可以学习(2)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记15——机器可以怎样学得更好(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记9——机器可以怎样学习(1)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记7——为什么机器可以学习(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记8——为什么机器可以学习(4)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记2——在何时可以使用机器学习(2)

2 Learning to Answer Yes/No 2.1 Perceptron Hypothesis Set 根据信用卡问题引入PLA算法. 有以下特征: 抽象一下,成为特征向量x,根据x和权重的w的内积相对于阈值的大小决定输出标签的正负(正则赋予信用卡,负不赋予信用卡): 具体而言,感知机(perceptron)的假设空间如下: sign又叫sgn: 当x<0时,sign(x)=-1:当x=0时,sign(x)=0:当x>0时,sign(x)=1. 感知机的假设空间的向量形式:权重向量