成长函数

$P(|E_{in}-E_{out}|>\epsilon) \leq 2Me^{-2\epsilon^2N}$

当M小时,能够保证Ein和Eout差不多,但是找不到比较小的Ein
当M很大时,能找到比较小的Ein,但是不能保证Ein和Eout差不多

所以,希望可以找到一个比较适合的M
$m_H$表示和假设集H相关的假设数量
$P(|E_{in}-E_{out}|>\epsilon) \leq 2m_He^{-2\epsilon^2N}$

首先想,将M归成若干类,每一类中的假设相似,对他们来说bad的数据集有很大一部分重叠

对于PLA来说,
对于1各点,线的类型有2种;2各点,线的类型有$2^2$种,
3各点,线的类型有$2^3$种;4各点,有$14<2^4$
用有效的线$effective(N)$,即成长函数$m_H(N)$的种类代替$2^N$

时间: 2024-11-19 12:53:43

成长函数的相关文章

06 Theory of Generalization

若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大,小得越来越多. 当断点为k时,记最大可能的成长函数mH(N)为bound函数,记为B(N,k).------只和N.k有关 注意比较,发现bound函数比起成长函数消除了H. 如果无断点,自然没有B(N,k)什么事: 如果断点为k, 那么mH(N)是给定H下,可能的最大假设类数: B(N,k)是不限H下

机器学习基石笔记6——为什么机器可以学习(2)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石第五讲笔记

通过前四讲可知,在假设集大小(M)有限的条件下,机器是可以学习的.第五讲的目的是解决M为无限大时,机器是否能学习的问题. 为什么在假设集大小(M)有限的条件下,机器是可以学习的? 1. 其依据是Hoeffding不等式: 这个不等式说明了,训练集的错误率Ein(g)和测试集的错误率Eout(g)的差距太大(>ε)这件事情发生的概率是有上界的,这个上界由M.ε和N(样本量大小)决定. 这个不等式的由来是在第四讲之中.如果某份资料对于假设集的全体,至少存在一个假设g使得Ein(g)和Eout(g)的

【机器学习基石笔记】六、举一反三的理论

成长函数 mH(N): 当有N个点的时候,在H集上有多少种二分的方法. breakPoint: 对任意的n个点,都没有2^n种不同的分割.n就是breakPoint. 定义B(N, k) 在k是breakPoint的情况下,N个点最多有多少种不同的分割. 可以画出B(N, k)图像: B(N, 1) = 1 k比较大时,B(N, k) = 2^N N比较大时,证明B(N, k) = 2 * a + b.分类为 其中a是成对的, b是单独的. a + b <= B(N-1, k) a <= B(

机器为什么可以学习(2)---一般化理论

1.课程内容 上节课中针对hypothesis set的分类问题,我们引入了成长函数,表示在数据集D上的hypothesis set可以分成种类的最大值,希望可以使用mH(N)来替代霍夫丁不等式中的M,如果mH(N)存在一个break point使得mH(N)的成长速度很慢是否一定可以使用mH(N)来替代M? 上次课讨论了break point 的意义即:当存在break point时hypothesis set可以被分成有限类,同时说明了霍夫丁不等式在M为一个多项式级别下依然成立,因此继续讨论

理解机器为什么可以学习(三)

前边讨论了我们期望成长函数m能够取代了M,现在继续讨论m是否成长很慢,是否能够取代M. 成长函数就是二分类的排列组合的数量.break point是第一个不能shatter(覆盖所有情形)的点. 1.break point对成长函数的限制 我们希望 这里引入上限函数 bound function:给了break point,看看可以组成多少排列组合,下面证明boundfunction是多项式成长的. 右上角相当于没有加条件限制,对角线就是全部的减1嘛,因为全部不可能,小一点,找个上限. 接下来填

机器学习之----VC维理论基础及证明

VC理论证明通过一系列的求上限,获得了针对所有目标函数.及所有训练数据集的一个上限公式,对机器学习有着重要意义!但是正也是因为如次多的上限,所以该值对指导实践只是一种最坏的参考,还有太多的假设集求不出VC维来.可以看到证明过程极具技巧性,巧妙的将无穷转化为有限,再找到了界. 在VC维理论证明中涉及成长函数.打散等重要概念,不少朋友在理解中或许不知所云,或许存在误差(包括作者本人亦是如此).通过本次学习,可以坚定学习理念,他告诉我们通过样本数据来进行学习,然后应用到未看到的数据中去是理论根据的.本

Infinite size of Hypothesis set and growth function

We want: 根据Hoeffding: 但是M是无穷大的,是否可以找到一个有穷大的m_H去替代无穷大的M? 思考:M从何而来。 Hset里有M个h,对于每个Data,只要存在一个h会造成Bad,即Ein和Eout差很远,则称该Data是一个Bad sample,因此是用or的关系。这里的upper bound之所以是可以加起来的,是因为假设了Bad sample发生在不同的h上,即h1(D1)是Bad的,h2(D1)就不会Bad。但是这种假设是不对的。例如:对于两个很接近的h,他们对于同一个

解读机器学习基础概念:VC维的来龙去脉

原作者:vincentyao  原文链接: http://dataunion.org/14581.html 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学