机器学习基石笔记-Lecture 4 Learning is possible

hoeffding 不等式说明了在样本量足够大时，抽样估计能够接近真实值。

类比到ml中，对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候，Ein与Eout近似相等。

现在已经知道对任意给定的h，在N足够大时，Ein近似于Eout，如果 Ein 非常小，那么Eout也就小，就说明这个 h 和真实的 f 在很大概率上是很接近的。

现在的一个问题是，如果在多个假设中，其中一个假设h针对训练数据的输出都是正确的，也就是Ein为0，是不是就应该选择这个h作为算法A的输出？

这里提出一个 bad data的概念，对一个数据集D，h的Ein和Eout差别很大，那么这个数据集D就是不好的。

hoeffding不等式其实是对样本空间的一个“抽样”穷举，然后在很多次的抽样中，只有很少次的抽样是bad data，也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。

对多个假设函数而言的bad data定义：

对每一行h，根据hoeffding不等式，bad data的概率是很小的

对每一列Di，如果在某些h上是bad data，那么A就不能自由的选择。

像D1126就是对整个假设空间H或者说算法A是一个好的数据集（个人理解）

对有M个h的假设空间，bad data出现的概率被限制住

至此，对有限基数的假设空间，只要N足够大，不管A如何选g，训练数据如何选取，g的训练错误率和真实的错误率都很接近。

只要算法A找到一个Ein很小的g，那么就能够用来接近真实f。这样算法就有可能学到有用的知识。

时间： 2024-12-10 18:04:09

机器学习基石笔记-Lecture 4 Learning is possible的相关文章

机器学习基石笔记-Lecture 3 Types of learning

介绍了机器学习中的几类问题划分. 半监督学习能够避免标记成本昂贵的问题. 强化学习,可以看做是从反馈机制中来学习. 在线学习,数据一个接一个地产生并交给算法模型线上迭代. 主动学习,机器能针对自己没有信心的数据提问,得到答案后再学习. 针对特征空间也有分类,比如具体的特征.原始的(个人理解是人为可提取的)特征和抽象的(个人理解是难以提炼的)特征.

机器学习基石笔记-Lecture 9 Linear regression

线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好.因为假设空间是线性的,所以最后的g会是直线或者平面. 通常的误差衡量方法是使用平方误差接下来的问题是如何最小化 Ein 将Ein写成矩阵形式, 注意到Ein是w的函数,是连续的.可微的.凸函数. 对w求偏导使之为0则可以求出最优点. 这是一个关于w的一次方程. 在不可逆时,它的 pseudo-inverse仍然存在,只是会有多个,选取其中一个去得到w即可. 线性回归是一个学习算法吗? 先来看一看它的Ein H也可以

机器学习基石笔记-Lecture 10 Logistic regression

soft binary classification的概念:软二分类,不直接化为-1.1,而是给出一个概率值. 目标函数是一个概率值,但是拿到的data中y只有0.1(或者-1.1),可以看做是有noise的data. logistic hypothesis 通过 theta 转化为 0.1间的数. 目标函数f(x)其实呢就是,那么那么对N个样本,产生的概率是对于f的估计h,似然函数为那么有: 使用w替换掉h,即求w的极大似然估计化简后等价于最后的Ein就是cross-entropy

机器学习基石笔记-Lecture 5-7 VC dimension

为了引出VC维做了很长的铺垫..VC维:用来描述假设空间的表达能力. 第四节讲到对有限的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近. 现在先解决无限假设空间的问题. 希望找到一个 m_H 来替代无限大的M. 系数M的来源是因为对bad data的概率值进行了累加. 但是其实一些h在同一个data上是重叠的,union bound将概率放大了.这样就希望对h进行一些划分,找出在data上表现类似的h,归为一类. 这里举出了二维感知机分类的例子,来

机器学习基石笔记1

机器学习基石笔记1 lecture 1: The Learning Problem 1. 机器学习是什么通过对数据的经验计算(experience computed),提升性能度量 3个关键性质 a) 存在一种可以学习的潜在的模式(underlying pattern) b) 没有明确的可编程的定义 c) 存在和模式相关的数据 2. 机器学习的应用教育推荐系统 etc. 3. 机器学习的元素 4. 机器学习和其他领域的关系领域描述机器学习使用数据计算假设g,以此估计目标函数f 数据

机器学习基石笔记4——在何时可以使用机器学习(4)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8