机器学习可行性分析(1)
1、No free lunch
机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子
英文描述:
learning from D (to infer something outside D) is doomed if any ‘unknown’ f can happen.
2、如何计算大罐子中橙色弹珠的比例?
这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。
“大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。
关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差
3、罐子理论和机器学习时间的关系
机器学习与上述通过样本计算弹珠比例的十分相似。
对于给定的h,样本D中(N条记录)的错误率 ,样本之外的错误率 ,也存在霍夫不等式的关系:
也就是说
在实际机器学习中,面对多个h可以选择时,随着h的增加,出现错误的概率会增加。假设存在M个h:
所以,当假设空间有限时(M),如果给定样本空间N足够大,发生BAD sample的概率非常大。此时学习是有效的
当假设空间无限大时,下一节讨论。
机器学习可行性研究(2)
1.回顾重要公式
当假设空间H有限,大小为M,样本空间N足够大时,总存在训练错误率。合适的机器学习算法A使得样本空间的训练错误率接近为零时, ,使用样本空间的训练出的g估计样本空间的情况,此时的学习是有效的。
2.假设空间大小H:M
根据上面的公式,当M无限大时,机器学习是无效的
主要原因是计算M的时候使用UNION BOUND的方式,这样的上界太宽松了。实际上,由于不同的假设下发生坏是有很多重叠的,其实我们可以得到比M小得多的上界。
3.增长函数(Growth Function):描述假设空间m与样本N的大小的关系
positive rays:
positive intervals:
convex sets:
2D perceptron: N>3
4.突破点(break point):对于某假设空间H,如果m(k)<2^k,则K是它的突破点,最小的k,称为最小突破点
对于存在突破点的假设空间H,
5.vc bound
根据突破点得到了 的多项式上界,希望对之前的不等式中的M进行替换。然而直接替换是存在问题的,具体的替换方法,严格的证明比较复杂,结果就是著名的vc 界(vc bound)
课件中最后给了一个例子,
,ε=0.1,N=10000,计算BAD events 的VC bound,得到0.298