机器学习(4)Hoeffding Inequality--界定概率边界

问题



假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity。

实际情况中,最有可能限制学习器成功的因素是训练数据的有限性。

在使用学习器的过程中,我们希望得到与训练数据拟合程度高的假设(hypothesis)。(在前面文章中提到,这样的假设我们称之为g)。

这就要求训练错误率为0。而实际上,大部分情况下,我们找不到这样的hypothesis(通过学习机得到的hypothesis)在训练集上有错误率为0。

所以退而求其次,我们只能要求通过学习机得到的hypothesis在训练集上错误率越低越好,最好接近0。

问题描述:

令D为有限的训练集,Ein(h)(in-sample error)为假设h在训练集D上的训练错误率,Eout(h)(out-of-sample error)是定义在全部数据的错误率。

(由此可知Eout(h)是不可直接求出的,因为不太可能将学习完无限的数据)。令g代表假设集中训练错误率最小的假设。

Hoeffding Inequality



Hoeffding Inequality刻画的是某个事件的真实概率与m各不同的Bernoulli试验中观察到的频率之间的差异。由上述的Hoeffding Inequality可知,

对我们是不可能得到真实的Eout(h),但我们可以通过让假设h在有限的训练集D上的错误率Ein(h)代表Eout(h)。

什么意思呢?Hoeffding Inequality告诉我们:较好拟合训练数据的假设与该假设针对整个数据集的预测,这两者的误差率相差很大的情况发生的概率其实是很小的。

Bad Sample and Bad Data



坏的样本(Bad Sample):假设h在有限的训练集D上的错误率Ein(h)=0,而真实错误率Eout(h)=1/2的情况。

坏的数据(Bad Data):Ein和Eout差别很大的情况。(通常情况下是Eout很大,Ein很小。

下面就将包含Bad data的Data用在多个h上。

上图说明:

  1. 对于任一个假设hi,由Hoeffding可知其在所有的数据上(包括Bad Data)上出现不好的情况的总体概率是很小的。

Bound of Bad Data

由上面的表中可以得到下面的结论:

对于所有的M(假设的个数),N(数据集规模)和阈值,Hoeffding Inequality都是有效的

我们不必要知道Eout,可以通过Ein来代替Eout(这句话的意思是Ein(g)=Eout(g) is PAC).

感谢台大林老师的课。

参考:[原]【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式

http://www.tuicool.com/articles/yyu2AnM

更多技术干货请关注:

时间: 2024-10-10 10:57:11

机器学习(4)Hoeffding Inequality--界定概率边界的相关文章

Hoeffding inequality

Hoeffding公式为 \epsilon]\leq{2e^{-2\epsilon^2N}}"> 如果把Training error和Test error分别看成和的话,Hoeffding告诉我们,取样出来的v和总的u大部分是比较接近的,很小的概率是差很远的,即Ein和Eout差很远,这种情况称为Bad sample. 本来只有一个coin,丢5次,5次head的概率就是1/32。现在有150个coin,可以选择出现5次的那个coin,这时概率会大大增加,变成了1-(31/32)^150

机器学习中的数学系列-概率与统计

1,基本概念 (1)期望 \( E(X)=\sum_i{x_ip_i} \) ------------------- important ---------------- E(kX) = kE(X) E(X+Y) = E(X)+E(Y) 当X和Y相互独立:E(XY)=E(X)E(Y) (这个不能反向推哦) ----------------------------------------------- (2)方差 \( D(X)=\sum_i{(x_i-E(X))^2p_i} \) 从这个式子可以

机器学习中的概率模型和概率密度估计方法及VAE生成式模型详解之一(简介)

A Gentle Introduction to Probabilistic Modeling and Density Estimation in Machine Learning And A Detailed Explanation of Variational Auto-Encoder by Jiyang Wang [email protected] Github.com/2wavetech 简介 非监督机器学习(Unsupervised Machine Learning)中的数据分布密度估

【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式

引入 在上一小节"理解为什么机器可以学习--PAC学习模型"中,我们主要讨论了假设的错误率问题和如何说一个学习器是可学习的,并给出了PAC学习理论.这一小节,我们将沿着这个方向,讨论一下,有限假设空间的样本复杂度,并用Hoeffding不等式来界定概率边界. 假设空间的样本复杂度 PAC可学习性很大程度上由所需的训练样本数量决定.随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度(sample complexity).在多数实际问题中,最限制学习器成功的因素是有限的可

【机器学习基础】理解为什么机器可以学习3——VC理论

引入 上一小节中,"理解为什么机器可以学习--Hoeffding不等式"中,我们介绍了有限假设空间中的概率边界.在这篇文章中,我们将推广至无限假设空间中,进而引入VC理论. 面临待解决的问题 上一节,我们证明了PAC学习的样本复杂度随假设空间对数增长,但是以假设空间的个数|H|来刻画样本复制度存在缺点: 对于|H|很大的情形,会使一个很弱的边界,即出现错误的概率很大 对于无限假设空间的情形无法应用 所以,我们要考虑H的复杂度的另一种度量方式,称为H的Vapnik-Chervonenki

Andrew Ng机器学习公开课笔记 -- 学习理论

网易公开课,第9课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) 最左边,underfit,我们说这种学习算法有较大的bias Informally, we define the bias of

Coursera 机器学习基石 第4讲 学习的可行性

这一节讲述的是机器学习的核心.根本性问题——学习的可行性.学过机器学习的我们都知道,要衡量一个机器学习算法是否具有学习能力,看的不是这个模型在已有的训练数据集上的表现如何,而是这个模型在训练数据外的数据(一般我们称为测试数据)上性能的好坏,我们把这个性能称为泛化能力(generalization ability),机器学习中,我们的目标是寻找高泛化能力的模型:有些模型虽然在训练数据集上分类效果很好,甚至正确率达到100%,但是在测试数据集上效果很差,这样的模型泛化能力很差,这种现象也叫过拟合(O

机器学习 MLIA笔记(一)

监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么.所谓监督,其实就是我们的意愿是否能直接作用于预测结果.典型代表:分类(classification)和回归(regression). 非监督学习(unsupervised learning):在非监督学习的数据中,没有给出标签(label,用于类别区分等)和目标值(target value,用于回归预测).通常,如果我们如果想将具有相似性的数据项进行分组,这种行为就是“聚类”(cluste

机器学习概论

机器学习原理.实现与实践——机器学习概论 如果一个系统能够通过执行某个过程改进它的性能,这就是学习. ——— Herbert A. Simon 1. 机器学习是什么 计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 从上面的机器学习的定义中,我们可以了解到以下的信息: 机器学习以计算机及网络为平台,是建立在计算机及网络之上的: 机器学习以数据为研究对象. 机器学习计学习的目的是对数据进行预测与分析 机器学习以模型为中心.构建模型.优化模型并用模型来进行预测. 机器学习的