无限的hypotheses 变成有限的dichotomies

给定任意D,它是某些H的Bad Sample(即Ein和Eout不接近)的概率为:

即H中备选函数的数量M=|H|越少,样本数据量N越大,则样本成为坏样本的概率越小。在一个可接受的概率水平上,学习算法A只需要挑选那个表现最好的h作为g就行了。

挑选出最好的g需要满足两个条件:找到一个假设g使得Eout(g)和Ein(g)是非常接近的,使得Ein(g)足够小,

下面是BAD和M的关系:

因此选择一个合适的M是非常重要的,需要用一个有限的值m来替代一个非常无限的值M

思路:overlapping for similar hypotheses h1 h2 ,它们的Ein(h1)≈Ein(h2),Eout(h1)≈Eout(h2)(比如说PLA中的两条直线,相邻的很近的直线)=>union bound over-estimating

to account for overlap,we can group similar hypotheses by kind

h对D的一个Dichotomy(二分):备选函数集中的每一个函数h都是输入X到输出Y的一个映射:H={hypothesis h:X->{×,Ο}}将h(x1,x2,...,xN)=(h(x1),h(x2),...,h(xN))∈{×,Ο}其中H(x1,x2,...,xN)包含了所有对D的dichotomies。

hypotheses H 和dichotomies H(x1,x2,...,xN)的区别:

growth function: remove dependence by taking max of all possible (x1, x2, . . . , xN)

4个成长函数

break point:有k个输入,如果它不能被当前的备选函数集H shatter,那么k就是H的一个Break Point

时间: 2024-10-12 22:29:57

无限的hypotheses 变成有限的dichotomies的相关文章

自适应滤波——第二章:维纳滤波器(1)

作者:桂. 时间:2017-03-23  06:28:45 链接:http://www.cnblogs.com/xingshansi/p/6603263.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 仍然是西蒙.赫金的<自适应滤波器原理>第四版,距离上次看这本书已经过去半个月,要抓点紧了.本文主要包括: 1)何为维纳滤波器(Wiener Filter); 2)Wiener滤波器的推导: 内容为自己的学习总结,内容多有参考他人,最后一并给出链接. 一.维纳滤波器简介 A-基本概念 对于

20145239 《信息安全系统设计基础》第3周学习总结

20145239 <信息安全系统设计基础>第3周学习总结 教材学习内容总结 三种数字表示 无符号:编码基于传统的二进制表示法,表示大于或等于0的数字. 补码:编码表示有符号整数的最常见的方式,有符号整数就是可以为正或者为负的数字. 浮点数:编码是表示实数的科学记数法的以二为基数的版本. 漏洞原因:因为3种数字精度有限所以计算机会因溢出而使用求模运算,使无限的明文对应有限的密文,因此会出现漏洞. 进制转换 在计算机导论课程中已掌握. 用gcc –m32可以在64位机上生成32位代码: 寻址和字节

信息的表示和处理学习记录

重要知识点 三种数字表示 无符号:编码基于传统的二进制表示法,表示大于或等于0的数字. 补码:编码表示有符号整数的最常见的方式,有符号整数就是可以为正或者为负的数字. 浮点数:编码是表示实数的科学记数法的以二为基数的版本. 漏洞原因:因为3种数字精度有限所以计算机会因溢出而使用求模运算,使无限的明文对应有限的密文,因此会出现漏洞. 进制转换 在计算机导论课程中已掌握. 32位与64位机器中的数据大小 C声明 32位机器 64位机器 char 1 1 short int 2 2 int 4 4 l

技术栈选择与全栈工程师

很多朋友的第一门语言是一个强类型语言.可能是C/C++/Java/C#. 做到一定年份了,积累了丰富的经验,发现自己好像大多数东西能做,客户端.服务端.手机.游戏,很多场景自己都可以进行开发. 在各种场景下都能开发. 在各种场景下都遇到有力的竞争对手. 竞争对手貌似不少人比自己开发效率高. 类似这样的技术人员,我们可以称之为C蛮. ---------------- C蛮和队长的故事 -------------- C蛮浑身肌肉,手持精金巨斧. 无论看到什么怪物,嗷呜一声吼.狂暴+吹大+高等魔化武器

优秀的JavaScript模块是怎样炼成的

引言:如今的JavaScript已经是Web上最流行的语言,没有之一.从Github上的语言排行榜https://github.com/languages上即可看出,也是如今最为活跃的开源社区.随着Node的加入,JavaScript开枝散叶进入服务器领域,为这个语言榜的占比,也贡献了几分热度.尽管经历了Web2.0的洗礼 ,但在国内谈及开源,开源人士似乎都当这门语言并不存在,这也意味着国内的开发中坚阶层,并没有改变JavaScript以及前端过去二流形象的认识,也没意识到JavaScript如

哈希(Hash)与加密(Encrypt)的基本原理、区别及工程应用

0.摘要 今天看到吉日嘎拉的一篇关于管理软件中信息加密和安全的文章,感觉非常有实际意义.文中作者从实践经验出发,讨论了信息管理软件中如何通过哈希和加密进行数据保护.但是从文章评论中也可以看出很多朋友对这个方面一些基本概念比较模糊,这样就容易“照葫芦画瓢”,不能根据自身具体情况灵活选择和使用各种哈希和加密方式.本文不对哈希和加密做过于深入的讨论,而是对哈希和加密的基本概念和原理进行阐述.比较,并结合具体实践说明如何选择哈希和加密算法.如何提高安全性等问题,使朋友们做到“知其然,知其所以然”,这样就

11.python并发入门(part7 线程队列)

一.为什么要用队列? 队列是一种数据结构,数据结构是一种存放数据的容器,和列表,元祖,字典一样,这些都属于数据结构. 队列可以做的事情,列表都可以做,但是为什么我们还要去使用队列呢? 这是因为在多线程的情况下,列表是一种不安全的数据结构. 为什么不安全?可以看下面这个例子: #开启两个线程,这两个线程并发从列表中移除一个元素. import threading import time l1 = [1,2,3,4,5] def pri(): while l1: a = l1[-1] print a

你在为谁工作 3

要事第一 工作效率最高的人是那些对无足轻重的事情无动于衷,却对那些较重要的事情无法无动于衷的人.一个人如果过于努力想把所有事情都做好,他就不会把最重要的事做好. 只有重要而不紧迫的事才是需要大量时间去做的事.80/20法则告诉我们:应该用80%的时间做能带来最高回报的事情,而用20%的时间做其他事情.取得卓越成果的员工都是这样把时间用在最具有"生产力"的地方. 挑战"不可能完成"的工作 勇于向"不可能完成"的工作挑战,是事业成功的基础.西方有句名

Streaming 101

开宗明义!本文根据Google Beam大神Tyler Akidau的系列文章<The world beyond batch: Streaming 101>(批处理之外的流式世界)整理而成, 主要讨论流式数据处理.在大数据领域,流式数据处理越发地重要了.原因有以下几点: 人们越来越想要得到更及时的数据,而切换到流式处理(streaming)无疑是一个降低延时的好办法 海量数据的生产变得越来越频繁,即使是小公司也会产出超大量的每日数据.因此必然要求有一种系统能够处理这种无穷多的数据集合 数据更快