机器学习基石第五讲笔记

通过前四讲可知，在假设集大小（M）有限的条件下，机器是可以学习的。第五讲的目的是解决M为无限大时，机器是否能学习的问题。

为什么在假设集大小（M）有限的条件下，机器是可以学习的？

1. 其依据是Hoeffding不等式：

这个不等式说明了，训练集的错误率E_in(g)和测试集的错误率E_out(g)的差距太大（>ε）这件事情发生的概率是有上界的，这个上界由M、ε和N（样本量大小）决定。

这个不等式的由来是在第四讲之中。如果某份资料对于假设集的全体，至少存在一个假设g使得E_in(g)和E_out(g)的差距大于ε，那么就认为这份资料是不好的。对于某一个假设h来说，P[|E_in(h) - E_out(h)| > ε] ≤ 2exp(-2ε²N)。因为假设集的大小是有限的，设为M，则有P[|E_in(g) - E_out(g)| > ε] ≤ 2Mexp(-2ε²N)

上式只对M有限时成立。当M为无限大时，尽管假设各不相同，但是它们之间的错误率可能是相似的，即有重叠部分。例，在PLA中，两条很接近的直线，可能把数据分成相似的两类。所以用上式来估计上界其实是过大了，忽略了不同假设之间错误率重叠的部分。因此，希望找到一个数m（<<M），重新估计这个上界。

如何找到代替M的m？

2. 考虑PLA的例子。尽管PLA的假设集是R²上的所有直线，但是对于无限多的直线，可以进行有限的分类。分类的依据是这条直线对数据如何分类。对数据给出相同分类的所有直线归成一类。这样若有N个数据点，则最多有2^N类直线（因为PLA只将数据分成两类）。

3. 将PLA做延伸，依据输出空间的不同划分假设集H。假设H是包含所有假设的集合，h是H中的一个元素，将从输入空间中取出的一份含有N个点的资料(x₁, x₂, ..., x_n)中的每一个点分成了两类中的某一类，即

称所有将相同资料归为同一类的假设组成的集合为dichotomy。比如，有一个h将资料的4个点全部判为圈圈，另外一个号也对这同样的4个点全部判为圈圈，那么这两个h就分在同一个dichotomy中。对于H来说，其包含的dicho的数量的上界为2^N（一个点只能属于两类中的一类）。由于dichotomy的数量，取决于输入的数据的维度，例：若数据的维度为4，则至多有2⁴种dichotomy，所以为了去除对输入的依赖，定义成长函数（growth function）：

即在输入空间X中取N个点，使得dichotomy数量最大。比如PLA中，取1个点时，dichotomy数量为2，取2个点时为4，取3个点时最多为8（若3点共线，则只有6种）。其意义是，根据输入的N个点，H能将这N个点判为不同类型的组合的最大数量。

5. 若有N个点，根据这N个点做出的dichotomy包含了H的所有可能的dichotomy，则称这N个点shatter了H。比如，当只有一个点k时，只有两种dichotomy，即叉和圈。而H中刚好既有将这个点分为叉的假设，又有将这个点分为圈的假设，则称这个点shatter了H。

6. break point：第一个无法做出所有dichotomy的点。令m_H(k) < 2^k，可解出第一个无法做出所有dichotomy的k。当存在break point时，成长速度m_H(N) = O(N^k-1)。

时间： 2024-08-13 03:36:54

机器学习基石第五讲笔记

机器学习基石第五讲笔记的相关文章

机器学习基石第一讲笔记

机器学习基石第三讲笔记

机器学习基石第二讲笔记

机器学习基石笔记6——为什么机器可以学习（2）

机器学习基石笔记15——机器可以怎样学得更好（3）

机器学习基石笔记9——机器可以怎样学习（1）

机器学习基石笔记7——为什么机器可以学习（3）

机器学习基石笔记8——为什么机器可以学习（4）

机器学习基石笔记2——在何时可以使用机器学习（2）