Hoeffding inequality

Hoeffding公式为

\epsilon]\leq{2e^{-2\epsilon^2N}}">

如果把Training error和Test error分别看成的话,Hoeffding告诉我们,取样出来的v和总的u大部分是比较接近的,很小的概率是差很远的,即Ein和Eout差很远,这种情况称为Bad sample.
本来只有一个coin,丢5次,5次head的概率就是1/32。现在有150个coin,可以选择出现5次的那个coin,这时概率会大大增加,变成了1-(31/32)^150 = 99%。
现在的问题是,Algorithm要从H set中选择一个h,而不是force to pick this h。要做到给不同的data,通过A可以得到不同的h,即不同的分界线。但是现在如果只有一个h,则不是learning的过程。但是可以去verify这个h好不好,就看这个h的Ein(h)小不小了。
如果现在有multiple h,对应前面多个coin,其中有一个h在sample上全对,即这个coin5次都是head,说明这个h就很好吗?NO!!其实对于150个硬币,都是一样的,不存在好与坏。出现5次head也只是概率问题。假设我们选择了这块出现5次head的硬币,如果继续往下投,搞不好就不会出现这么多次head了。对应到h上,如果选择一个在sample上表现很好的h,即Ein(h)很小,但是把这个h放到out-of-sample里去,可能表现就会很差了(overfitting)。
我们可能有很多组的training set,这些training set在一个特定的h上表现不一,有的很好,有的则一般,但是这个h在out-of-sample上的表现,有可能和它在in-sample上的表现接近,也可能差很远。如果Ein和Eout差很多的话,可能是Ein很小,但是Eout很大,则这组产生这样的Ein的training set是一个Bad sample. Hoeffding保证的是这种情况的概率很小。

现在假设Hset里有M个h。各种数据集在h上的表现如下

D1在h1上产生很小的Ein,但是h1的Eout很大,则D1对于h1来所就是Bad data. 然而D1126就不是一个Bad data,对于Hset里面的任意一个h,Ein(h)都接近Eout(h)。
对于一个Bad data,它使得Ein far away from Eout的概率是:

但是我们还是可以在不知道Eout(h),同时也不知道f以及D的分布P的情况下,找到概率的upper bound,这个概率比较小,即Ein(g)=Eout(g) is PAC。(g就是由Algorithm选择产生Ein最小的那个h)。
结论

时间: 2024-08-01 10:43:08

Hoeffding inequality的相关文章

【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式

引入 在上一小节"理解为什么机器可以学习--PAC学习模型"中,我们主要讨论了假设的错误率问题和如何说一个学习器是可学习的,并给出了PAC学习理论.这一小节,我们将沿着这个方向,讨论一下,有限假设空间的样本复杂度,并用Hoeffding不等式来界定概率边界. 假设空间的样本复杂度 PAC可学习性很大程度上由所需的训练样本数量决定.随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度(sample complexity).在多数实际问题中,最限制学习器成功的因素是有限的可

机器学习(4)Hoeffding Inequality--界定概率边界

问题 假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity. 实际情况中,最有可能限制学习器成功的因素是训练数据的有限性. 在使用学习器的过程中,我们希望得到与训练数据拟合程度高的假设(hypothesis).(在前面文章中提到,这样的假设我们称之为g). 这就要求训练错误率为0.而实际上,大部分情况下,我们找不到这样的hypothesis(通过学习机得到的hypothesis)在训练集上有错误率为0. 所以退

My naive machine learning notes

Notes: This page records my naive machine learning notes. is learning feasible ? Hoeffding inequaility : link Hoeffding inequality formular's left side is about something bad happending. You don't want this bad thing to happen, so that you can use a

Andrew Ng机器学习公开课笔记 -- 学习理论

网易公开课,第9课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) 最左边,underfit,我们说这种学习算法有较大的bias Informally, we define the bias of

浅说机器学习理论

机器学习是现在在风口上.其包括一系列的具体算法,学习这些算法需要一定的数学基础(线性代数.概率论),网上有大量的资料可以参考学习:对于工程来说门槛就更低了,有许多优秀的现成框架可以使用.虽然我们调用一些api.调调参数就能完成很多工作,但是理解这背后的"为什么"还需要下一番功夫.机器学习理论是该领域的分析框架,这方面的内容比较抽象,且"实用性不强",所以常常被人忽略.这篇博客就来通俗地讲讲这些理论. 1.什么是机器学习 计算机编程算法是用来解决各种实际问题的.在传统

Stanford CS229 Machine Learning by Andrew Ng

CS229 Machine Learning Stanford Course by Andrew Ng Course material, problem set Matlab code written by me, my notes about video course: https://github.com/Yao-Yao/CS229-Machine-Learning Contents: supervised learning Lecture 1 application field, pre-

Hoeffding's inequality

Let $\{Y_i: i\in J\}$ be zero mean independent complex-valued random variables satisfying $|Y_i|\le R.$ Then for all $c>0,$ $$P\left(|\sum_{i\in J}Y_i|>c\right)\le 4\exp\left(\frac{-c^2}{4R^2|J|}\right).$$ See, Hoeffding, W, Probability inequalities

Hoeffding连接到机器学习

统计学场景: 一个罐子中有红球和绿球,红球比例$v$未知,数量未知,如何得到红球比例?方法---随机抽样N个球,在其中红球占比为$u$ 由hoeffding可以知道:$P(|u-v|>\epsilon)\leq 2e^{-2\epsilon^2N}$ 对应到机器学习分类问题:目标函数为$f(x)$,现要估计$h(x)$的错误率假设在罐子中,将$[f(x_i)\neq h(x_i)]$的x标成红色将$[f(x_i)= h(x_i)]$的x标成绿色此时红色比例$v$即为$E_{out}$ 此时数据集

[再寄小读者之数学篇](2014-06-23 Bernstein's inequality)

$$\bex \supp \hat u\subset \sed{2^{j-2}\leq |\xi|\leq 2^j} \ra \cfrac{1}{C}2^{jk}\sen{f}_{L^p} \leq \sen{D^k f}_{L^p}\leq C2^{jk} \sen{f}_{L^p}; \eex$$ $$\bex \supp \hat u\subset \sed{|\xi|\leq 2^j} \ra \sen{f}_{L^q}\leq C2^{jn\sex{\frac{1}{p}-\frac{