概率论迷思

当你抛起一枚硬币,你不知道它会是正面还是反面,但你确切的知道正面与反面的概率都是50%。
概率论的神奇之处在于,它居然能从不确定性中找到确定性。

本文不教科书,只是阐述我的观点和思考,如有谬误,欢迎讨论或指正。

一些有趣的观点:

一个事情有N种发生的可能性,我们不能确信哪种会发生,是因为我们不能控制结果的发生,影响结果的许多因素不在我们的支配范围之内,这些因素影响结果的机理或者我们不知道,或者太复杂以至于超出了我们大脑或电脑的运算能力。比如:我们不确定掷硬币得到正面或反面,是因为我们的能力不足以用一些物理方程来求解这个结果。再比如:你不能断定你期末能考88分,因为出题、阅卷的不是你。

对于未发生之事,我们无法掌握其所有参数或无法计算。对于已经发生之事,事情都已经发生了,结果已定,也会因为掌握的信息不全而产生所谓概率。
即过去发生的事情虽然事实上是确定的,但因为我们的无知,它成了随机的。

我们在某个地方挖出了一块瓷器的碎片,它可能是孔子的夜壶,可能是秦始皇的餐具,也可能是隔壁老王的破茶壶从他家到垃圾站又被埋在了这个地方。

因此:概率在实质上就是无知,而不是说事物本身是随机的。

这一点很重要,不要误以为概率应该是客观事实。如果你有上帝视角的话,那么一切都是注定,任何事的概率都是100%,也就没有所谓概率之说了。

所以概率论是建立在人们有限的认知中的,不是真正的客观事实。也就是说当孔子一看,这貌似是自己的夜壶啊,他认为这是夜壶的概率为70%,秦始皇一看那块碎片,朕心中只装的下江山,哪来的餐具,在他看来的餐具的概率是1/3,然而,老王的却早已看穿一切,那块碎片割过他的手所以他记得格外清楚,茶壶概率为100%。每个人所知道的信息决定了他所认知的概率。

就像狼人杀,这里假设游戏是7个人+上帝,1号和2号玩家是狼人,发完牌的时候就已经注定谁是狼人了。对于上帝和1、2号而言,没有概率可言,或者说1、2号是狼人的概率是100%。而对于平民而言,他除了自己,他无法找出理由认为谁是狼人,只好用古典概率的等可能假设,认为其他每个人是狼人的概率都是1/6,随着游戏的进行,预言家掌握更多的信息,他修正了自己的概率,而平民也根据自己掌握的信息修正自己概率,于是大家对于谁是狼人这件事都有了不同的概率。

注意到上面这个故事中,不难发现,假设碎片只有夜壶,餐具,茶壶这三种可能,即一开始概率应该是各1/3。从孔子到老王,他们都用各自掌握的信息修正了关于这个碎片是什么的概率。这就引出了先验概率和后验概率的概念。

先验概率(Prior probability)与后验概率(Posterior probability)

事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.
事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.

先看看来自wiki的定义:

Similarly, the prior probability of a random event or an uncertain proposition is the unconditional probability that is assigned before any relevant evidence is taken into account.

In Bayesian statistics, the posterior probability of a random event or an uncertain proposition is the conditional probability that is assigned after the relevant evidence or background is taken into account. Similarly, the posterior probability distribution is the probability distribution of an unknown quantity, treated as a random variable, conditional on the evidence obtained from an experiment or survey. “Posterior”, in this context, means after taking into account the relevant evidence related to the particular case being examined.
要注意的是这是在贝叶斯统计中。不是公理化的概率定义。

再看看书上的解释

在此墙裂推荐陈希孺院士《概率论与数理统计》,这是大专栏  概率论迷思get="_blank" rel="external noopener noreferrer">豆瓣、知乎的书评和推荐。陈老这本书之所以受到如此簇拥,在于它授人以渔而非授人以鱼,你读一读就是知道。

举一个的简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取,求:
⑴ 第一次摸到红球(记作A)的概率;
⑵ 第二次摸到红球(记作B)的概率;
⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。
解:
⑴ P(A)=3/5,还没还有摸球,就问概率,这就是验前概率;
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,这就是后验概率,第一次和第二次摸球这件事都已经发生了,但是我们不知道,比如第一次我们是闭着眼摸完又放回去了,便产生了概率之说。第一问事情未发生(或者说发生了,但是相对于未发生得情况,我们并没有掌握任何更多的信息)我们认为概率是3/5,第三问,我们知道了第二次摸到红球这件事,或者说证据,以此来修正这个概率,就像推理小说一样。
关于先验概率和后验概率,推荐阅读:
数理统计中的两个学派——频率学派和Bayes学派(1990年的期刊,能找到也是不容易)

一个笑话引发的血案:

病人:我听说这个手术成功概率为1%,我是不是该放弃治疗?
医生:你放心,我敢保证这次手术100%会成功。
病人:真的?为什么?
医生:因为我已经失败了99次了。

这是很多人都会犯的“常识”错误,也是经常让人迷惑的地方。可能在这个笑话里,大家没什么深刻感受,那换个例子,比如:A已经抛了100次硬币,每次都是正面,那么下一次反面的几率是不是更大?即使是统计学专业的学生也经常迷糊(比如统计学渣的我),我就一直纳闷,按照大数定律知乎的解释),如果抛硬币的次数足够多,他就应该是正反各1/2的分布啊,A都抛了100次正面了,下一次就该是反面几率更大了啊。可是每次抛硬币应该是相互独立的,也就是说之前抛无数次也不该影响下一次的概率,即1/2。这个问题的争论,请参考先验概率与后验概率的区别(老迷惑了)

我比较认可比较的解释是其评论中的一段话,当然,前提是你得清楚频率( 千万别把频率直接等同于概率),概率的古典定义和统计定义以及公理化定义。

关于概率论,一直有许多搞不懂的问题,迷迷糊糊混过四年。在学习HMM和CRF高楼大厦时,发现地基已碎,一边百度基础概念一边学,更是痛苦万分。在搜寻问题时产生更多的问题,终于在重新读了概率论前几章后,算是豁然开朗了很多,所以打算重读概率论,夯实基础,我应该会开个重读概率论的分类,有很多事要做,就并行处理吧,不知道会不会半途而废,也不知道半途而废的概率是多少(当然,我可以凭经验先给出一个主观先验概率,在以后的过程中再慢慢修正得到后验概率,直到概率为0或1),但是有些疑惑终究会推着我去探寻。

推荐阅读:

数学之美番外篇:平凡而又神奇的贝叶斯方法

参考资料

  1. 先验概率与后验概率的区别(老迷惑了)
  2. 先验概率与后验概率及贝叶斯公式
  3. 《概率论与数理统计》–陈希孺
  4. 数理统计中的两个学派——频率学派和Bayes学派
  5. 《概率论与数理统计》–盛骤,谢式千,潘承毅编.-4版

原文地址:https://www.cnblogs.com/lijianming180/p/12014250.html

时间: 2024-08-29 15:44:37

概率论迷思的相关文章

关于数据挖掘和数据分析的一点迷思!

关于数据分析和数据挖掘学习的一点迷思 可能有些数据挖掘工程师的工作就是研究算法研究数学,不需要他们去做数据清洗,做报表展示类的工作,这类就是大牛了,不需要再读下去了 关于数据这条路大家的一致认为业务和数学是很重要的,一切的分析思路和算法都要结合业务来做,算法(数学)是内功: 但是这两点对于普通人来说都不可能速成,业务能力靠的经验积累,在一个行业里摸爬滚打多年才能对行业有个清晰完整的认识: 数学这个我不是数学专业的,但是接触过一些感觉用数学解决实际问题也不是一朝一夕或者说本科硕士一毕业就行的. 这

区块链机遇中暗含迷思,下个BAT来自区块链平台技术

(上图为Gartner研究总监季新苏) 作为下一代全球信用认证和价值互联网基础协议之一,区块链技术近年正逐渐受到国内外政府机关.国际组织和金融机构的重视和关注.放眼国际,全球有24个国家正在大力投资发展区块链技术:90多个国家中央银行已经开始讨论布局和发展区块链技术:目前全球90多个大型跨国公司加入了区块链技术联盟. 而在国内,2017年4月,乌镇智库发布的<中国区块链产业发展白皮书>显示,截至2016年底,中国共有105家区块链相关企业.2016年,中国新增区块链企业数超过美国,占全球新增企

取证分析的迷思

由于证物特性的不同,在进行digital evidence的取证分析时,第一要务便是确保电子证据在过程中不致遭受污染或破坏.且由于是和计算机科技有关,随着科技的进步也会多所变化,因此取证分析也要能跟的上变化. 大家耳熟能详的就不提了,在此想分享的是取证分析的从业工作者在取证分析上的迷思,给大家参考.以避免犯了相关病征而不自知. 1.只知操作工具,而未能了解原理或本质 只知使用工具,而未能了解何以如此,那就可能成了"取证分析匠",在不懂"为何"及"如何&qu

前端迷思与React.js

前端迷思与React.js 前端技术这几年蓬勃发展, 这是当时某几个项目需要做前端技术选型时, 相关资料整理, 部分评论引用自社区. 开始吧: 目前, Web 开发技术框架选型为两种的占 80% .这种戏剧性的变化持续了近 6 年. 自 2013 年 5 月推出以来,ReactJS 在过去三年中已成为了 Web 开发领域的中坚力量. 任何组件与框架都有它的适用场景, 我们应该冷静分析与权衡, 先来看React.js 1 从功能开发角度说,React的思路很好.2 从页面设计角度说,传统的HTML

区块链狂热大面积爆发,Gartner建议认清五大迷思

(上图为Gartner研究副总裁兼院士级分析师Ray Valdes) 国际著名市场调查机构Gartner观察到,多种迹象显示自2015年8月以来大面积爆发了区块链狂热.实际上尽管到2015年底才成立了Linux基金会赞助下的HyperLedger超级账本项目,但自此之后的该项目就从最开始的30家创始成员公司迅速扩展到55家成员,还有2300个成员申请待处理. Linux基金会HyperLedger超级账本项目执行董事Brian Behlendorf亦于今年7月到访中国,他介绍Linux社区对于区

有漏应以正见段之哲学迷思——人活着有什么意义?

有漏应以正见段之哲学迷思——人活着有什么意义? 今天再次陷入了无聊无力之中.又开始问自己这个问题:都说有多大欲望就有多大成就,可是我找不到生命的意义,搞不清楚人为什么要活着?没有什么东西是我特别热爱的? 想要解答这个问题,常规的办法当然就是微信搜索一下,看看网友们都有怎样的回答! 但其实这不过是浪费时间罢了!徒劳罢了!这种人生大问题,一般人是无法给予答案的! 还是从佛法的角度如理作意吧! 当不断思考“我为什么要活着?我活着有什么意义?” 从佛法的角度讲,首先是有我见,其次是有人见! 执着一个我,

[Win8 APP]击破联络人迷思

当你开启win 8 的时候 面对一堆的APP 你是否会茫然呢? 今天 我选了一个'联络人App' 来讲解它的功用与好处 看到联络人APP 你应该会觉得这东西不必要吧?! 毕竟 正常情况下你不会拿电脑来打电话 那要这个干嘛?? 当然Mircosoft 会内建这个APP 就一定有它的功能 让我来带领你一一了解吧 '联络人App' 如果你是用本机账户登入电脑 那你一开始进入这个使用程序的时候 他会要求你建立/登入你的Windows Live Account(Windows Live账号) 当你使用此账

深夜Python - 第1夜 - for 迷 in 迷思

深夜Python - 第1夜 - for 迷 in 迷思 在一个月黑风高的夜晚,我悄悄打开编辑器,进入程序的世界.刚刚学会Python的我,由于一段时间的过度装B,被委托优化一段程序,我信心十足地接下来,看了又看……这不挺好的程序吗?但是又觉得哪不太对,无奈,只好去找夜猫兄. “夜猫兄!速救!——”我敲门敲出了过年放烟花般的氛围.夜猫兄刚刚起床,瞅瞅我的程序,然后瞅瞅我,一脸鄙夷:“这……是你写的?” “这是……其实是β兄的原创……”我感觉不妙…… “真差!”夜猫兄只说了这2个字. “啥啥啥?”

关于云计算的十大迷思

关于云计算的十大迷思 云计算依然被多种迷思所困扰.这些迷思可能会减缓企业的发展速度.阻碍创新并引发恐慌.尽管在过去的五年中,云计算的普及度已显著提升,但一些自云计算诞生以来就已存在的迷思一直延续至今.此外,也出现了一些新的迷思. Gartner杰出研究副总裁兼名誉院士级分析师David Smith表示:“云计算是一项以服务的形式来交付的能力.服务提供商与消费者之间存在明显的界限.” “这让大多数人觉得只要‘在云端’就会‘出现神奇的事情’.这样的环境理所当然地会充斥着各种迷思与误区.” Smith