贝叶斯学派与频率学派有何不同?

https://www.zhihu.com/question/20587681

作者:任坤
链接:https://www.zhihu.com/question/20587681/answer/17435552
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而,贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior
belief),通过观测获得统计证据(evidence),通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」,从而得出后置信念(posterior belief)来最好的表征观测后的知识状态(state of knowledge)。这里,贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量(measure of plausibility),从而可以允许观测者在不完全信息的状态下进行推断。这里,观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」,也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。

参考:《概率论沉思录》

// 补充(从对其他回答的评论中转移过来):

贝叶斯概率仍然只是一个实数,而概率分布是推断者根据自己的知识状态赋予参数在某集合内取各个值的可信度,因此概率分布表征了推断者的知识状态。

例如:一个硬币可能取正面或反面,某推断者的知识状态是对于「下一次会得到正面」赋予1/3的可信度(概率),「下一次得到反面」赋予2/3的可信度(概率),总的这个知识状态才是表证这个推断者的概率分布,这边是一个先验分布(可能来源于对这枚硬币的事先了解),随着他一直投掷硬币作实验,这位观测者会不断更新自己的知识状态,一个后验分布(另一组更新后的对正反面的看法,即赋予的可信度)来最好地表征推断者的最新的知识状态。

因此,贝叶斯概率和分布仍然是两个不同的概念,只是设定概念的动机不同。

Xiangyu Wang

脚踏两只船的统计学家 | 反正Bayes和Fisher都不在了=v=

301 人赞同了该回答

第一名答案的例子其实并不对。贝叶斯学派和频率学派的最大区别并不在于信息的利用和整合上。虽然贝叶斯方法可以用先验分布来引入以往的信息,但是频率学派也有方法来整合各种domain knowledge,比如在最优化likelihood的时候加入各种constrain。以麻将为例,频率学派的人同样可以把每个人的信息加入的模型中进而找出最有策略,这也是“统计决策”(Statistical decision theory)领域里早期大牛们的做法(虽然他们的定理证明了所有可能的决策选择中最佳的决策就是贝叶斯后验的Mode)。从这个意义上来说两者其实差别并不大。

频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。所谓参数空间,就是你关心的那个参数可能的取值范围。频率学派(其实就是当年的Fisher)并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

如果从概率的角度看,贝叶斯学派的想法其实更为自然,这也是为什么贝叶斯学派的产生远早于频率学派(去年是贝叶斯250周年)。但是贝叶斯方法本身有很多问题,比如当先验选的不好或者模型不好的时候你后验分布的具体形式可能都写不出来,跟别说做统计推断了。在当年电子计算机还没发展出来的时候,对这些情况做分析几乎是不可能的,这也就大大限制了贝叶斯方法的发展。而频率学派主要使用最优化的方法,在很多时候处理起来要方便很多。所以在频率学派产生后就快速地占领了整个统计领域。直到上世纪90年代依靠电子计算机的迅速发展,以及抽样算法的进步(Metropolis-hastings, Gibbs sampling)使得对于任何模型任何先验分布都可以有效地求出后验分布,贝叶斯学派才重新回到人们的视线当中。就现在而言,贝叶斯学派日益受到重视当然是有诸多原因的,所以这并不意味这频率学派就不好或者不对。两个学派除了在参数空间的认知上有区别以外,方法论上都是互相借鉴也可以相互转化的。当代学术领域批评的最多的仅仅是频率学派里的Hypothesis testing的问题,尤其是对于p-value的误用造成了很多问题,最近有一个心理学杂志BASP也已经禁用了Hypothesis testing (Psychology journal bans P values : Nature News & Comment)。 不过这只是Hypothesis testing这种研究方法本身的问题(testing是Fisher自己脑补出来的方法,confidence interval是Neyman提出来相对应的方法)。对应于Hypothesis testing,贝叶斯学派有自己的一套方法称为 Bayes factor。虽然Bayes factor本身比p-value要合理很多(个人见解),但是我并不觉得单靠Bayes factor的方法就可以有效解决当下p-value滥用导致的问题,因为Bayes factor同样可以导致Multiple comparisons problem

最后说说Fiducial inference这个东西。Fisher本人是hard-core frequentist,大肆批判贝叶斯方法。但是他提出的这个东西本质上是变着花样的贝叶斯理论。所以说Fisher其实是个大傲娇233

时间: 2024-08-27 16:59:01

贝叶斯学派与频率学派有何不同?的相关文章

浅析概率中的频率学派观点和贝叶斯学派观点

本文基本上可以认为是PRML的阅读笔记,主要来自于阅读[1]中的内容,如果其中有问题,欢迎指正,非常感谢. 使用随机事件的发生的频率描述概率的方法,就是通常说的古典概型,或者称为频率学派.另外有一个更加综合的观点就是贝叶斯学派,在贝叶斯学派的观点下概率表示的是事件的不确定性大小. 使用概率表示不确定性,虽然不是唯一的选择,但是是必然的,因为如果想使用比较自然的感觉进行合理的综合的推断的话.在模式识别领域,对概率有一个更综合的了解将会非常有帮助.例如在多项式曲线拟合的过程中,对观察的目标变量使用频

频率学派贝叶斯学派估计的区别

这里的频率学派,认为参数θ是一个常量 ,只有属于置信区间,或者∉置信区间,没有属于这个某个置信区间的概率是0.9的说法. 第一个意思是 整体分布的一个参数θ,取θ的某一个先验分布,计算在该先验分布的条件下的贝叶斯估计的值不能等于该θ在整体分布下面的值. 第二个图片就是例子,第二张图片中因为先验概率取得好,使得可信区间变短,小于按照经典方法计算得到的置信区间,所以他说不一定任意参数都能存在一个先验分布,使得其bayes估计就是经典估计. 前一个点估计,后一个是区间估计. 原文地址:https://

统计学中的频率学派与贝叶斯学派

对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西.这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题. 贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用.自20世纪初数理统计学大发展开始,一直到20世纪中叶,频率学派一直占据主导地位,当时诸多大咖如Fisher.K.Pearson等都属于频率学派,而从20世纪中叶以后,贝叶斯学派迅速发展壮大起来,可与频率学

理解频率派和贝叶斯派

频率派 \(vs\) 贝叶斯派 一.前言 在使用各种概率模型时,比如极大似然估计 \(logP(X|\theta)\),已经习惯这么写了,可是为什么这么写?为什么X在前,为什么 \(\theta\) 在后,分别代表了什么?这些更深一层的逻辑和理由不是特别清晰,故此梳理一下频率派与贝叶斯派的区别. 本文参考了网络上诸多资料,特别时B站Up shuhuai008和知乎上的贝叶斯学派与频率学派有何不同? 二.理解 贝叶斯派以人为主体,已经观测到的客观事件会对人的认知产生改变(客观事件为人服务) 频率派

机器学习理论基础学习1——频率派 VS 贝叶斯派

频率派 贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样) 原文地址:https://www.cnblogs.com/nxf-rabbit75/p/10272391.html

机器学习基础统计学(频率派与贝叶斯派)

一.频率派 假设X为随机数据,其矩阵表示维度为N,假设θ为X随机数的特征,频率派认为在一次实验中,如果时间A发生了,那么则认为事件A的发生一定是事件A的概率最大,记为P(x=A)最大,由假设可知事件A发生的概率和θ有关. 极大似然是指一次试验就发生的事件,这个事件本身发生概率最大,极大似然估计具体求解与推导公式如下: 假设:x是服从某个概率的分别,可以用概率P =p(x|Θ),其中Θ为概率分布的某个特征值,p(x|Θ)为事件x发生的概率.现在进行一次关于x的试验,得到样本值为(x1,x2,x3,

贝叶斯vs频率派:武功到底哪家强?| 说人话的统计学·协和八(转)

回我们初次见识了统计学理论中的"独孤九剑"--贝叶斯统计学(戳这里回顾),它的起源便是大名鼎鼎的贝叶斯定理. 整个贝叶斯统计学的精髓可以用贝叶斯定理这一条式子来概括: 我们做数据分析,绝大多数情况下希望得到的是关于某种假说是否成立的信息.等式左边的P(参数 | 数据),正是在观察到了手头上的数据的前提下,假说成立的概率.这里的"参数",只不过是描述我们感兴趣的假说的数字而已. 比如说,在第1集<你真的懂p值吗?>里(戳这里回顾),蓝精灵抛一枚钢蹦儿,想知

Bayesian Statistics for Genetics | 贝叶斯与遗传学

Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayesian inference 贝叶斯方法的逻辑十分接近人脑的思维:人脑的优势不是计算,在纯数值计算方面,可以说几十年前的计算器就已经超过人脑了. 人脑的核心能力在于推理,而记忆在推理中扮演了重要的角色,我们都是基于已知的常识来做出推理.贝叶斯推断也是如此,先验就是常识,在我们有了新的观测数据后,就可以

模型选择

继续上节内容介绍学习理论,介绍模型选择算法,大纲内容为: 交叉验证 特征选择 回顾上节的偏差方差权衡现象,若选择过于简单的模型,偏差过高,可能会导致欠拟合:若选择过于复杂的模型,方差过高,可能会导致过拟合,同样模型的一般适用性不好. 模型复杂度:多项式的次数或参数的个数. (1)尝试选择多项式的次数 (2)尝试选择参数 τ:局部加权线性回归带宽参数 C:支持向量机中的权衡参数 ------------------------------------------------------------