机器学习基石(6)--Theory of Generalization

本节课主要讲在机器学习中，机器如何做到举一反三。

上图可以得出结论，当N超过k的时候，m_H的数量会越来越少。对未来成长函数的样子加了一个限制。

m_H的数量其实是有一个上限的，这个上限就是关于N的一个多项式。引出定义bonding function B(N,k)

已知上限函数的break point是在k，求这个函数的上限到底是多少。并且，我们不用去管这个函数是什么样子，只需要关注K和N就好了。

bounding function计算表：

bounding function的几个性质：

1. B(N,1)=1

2. B(N,k)=2^N for N>k

3. B(N,k)=2^N–1 for N=k

下面要做的就是接触上图中空白的部分，以B(4,3)为例：通过计算得出B(4,3)=11，又可以归纳成（以x4为基准看单双对）2α+β=2N+k

由于任意三个点不能shatter，得出结论α+β≤B(3,3);

在单独的α中，任意两个点不能shatter，得出结论α≤B(3,2);

由此可以得出：

把这个拓展到N和k的情况下：

我们可以得出这个bounding function的上限，也就是这个上限函数的上限是（也就是之前讲过的成长函数的上限也被确定了）：

所以可以得出结论：如果k存在的话，B(N,k)的上限确实是一个关于N的多项式。最大值是N^k–1。

有时候我们写不出m_H，但是我们可以写出bounding function。

再次返回霍夫丁不等式，我们可以通过一系列数学证明得到如下结果：

证明的过程不重要，但是证明的技巧在后面可能会被用到：

Ein是有限的，但是Eout确实无限的，如果我们假设又从population中取了另一批sample，通过学习这一批sample得出了另一个E_in`，而这个E_in`应该和population中的E_out发生BAD事件的概率是相同的，所以，两批sample发生BAD事件也是相同的，E_out于是从无限就可以替换为有限个了。

把hypothesis set分类：由于上一步从population中取了另一批的sample，所以N应该由2N来替代。

采用无放回抽样(Hoeffding without Replacement)，得到的结果也是一样的。

最后得出结果（发生BAD事件的概率）：

总结：

时间： 2024-10-14 06:33:09

机器学习基石(6)--Theory of Generalization的相关文章

机器学习基石第六讲：theory of generalization

博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 机器学习基石第六讲继续讨论"学习是否可行的问题". Restriction of Break Point 继续前面的讨论,我们看mH(N)是否会有一个很小的增长速度.回顾前面的四种成长函数及其break point.我们知道k是一个成长函数的break point,那比k大的值全是break point. mH(N)是一个hypothesis在N个数据点上可以产生的dic

机器学习基石笔记6——为什么机器可以学习（2）

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石——第5-6讲.Training versus Testing

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第5讲-------Training versus Testing 从这一讲开始,讲的问题就是属于Why Can Machines Learn的范畴了.

林轩田《机器学习基石》简介

转:https://blog.csdn.net/red_stone1/article/details/80517672 课程介绍台湾大学林轩田老师曾在coursera上开设了两门机器学习经典课程:<机器学习基石>和<机器学习技法>.<机器学习基石>课程由浅入深.内容全面,基本涵盖了机器学习领域的很多方面.其作为机器学习的入门和进阶资料非常适合.<机器学习技法>课程主要介绍了机器学习领域经典的一些算法,包括支持向量机.决策树.随机森林.神经网络等等.林老师的

NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)

课讲内容这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周.依上所述,課程的規畫如下: When Can Machines Learn? [何时可以使用机器学习] 第一周:(NTU-Coursera机器学习:机器学习问题与二元分类) 第一讲:The Learning Problem [机器学习问题]第二讲:Learning to Answ

机器学习基石笔记9——机器可以怎样学习（1）

机器学习基石笔记7——为什么机器可以学习（3）

机器学习基石——第13-14讲.Hazard of Overfitting

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第13讲-------Hazard of Overfitting 从这一节开始,我们开始探讨How Can Machines Learn Better的

机器学习基石——第15-16讲.Validation

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第15讲-------Validation 一.模型选择问题机器学习的每个模型都有各式各样的参数.即使只是对于二元分类,学习算法上可以选择PLA,LR