理解频率派和贝叶斯派

频率派 \(vs\) 贝叶斯派

一、前言

在使用各种概率模型时，比如极大似然估计 \(logP(X|\theta)\)，已经习惯这么写了，可是为什么这么写？为什么X在前，为什么 \(\theta\) 在后，分别代表了什么？这些更深一层的逻辑和理由不是特别清晰，故此梳理一下频率派与贝叶斯派的区别。

本文参考了网络上诸多资料，特别时B站Up shuhuai008和知乎上的贝叶斯学派与频率学派有何不同？

二、理解

贝叶斯派以人为主体，已经观测到的客观事件会对人的认知产生改变（客观事件为人服务）
频率派以客观世界为研究主体，我们是为了找到客观世界的某个规律（人为客观世界服务）

频率派："客观世界"是变化的,探究的是"客观世界的规律"，描述了我们找到的某一种"规律"，\(\theta\)是唯一的，样本空间是无限的

贝叶斯派探究的是我们对某一事件发生的相信程度，且这种相信程度会因为观测到的客观事件而改变。

概率

频率派：事件在长时间内发生的频率(全局)
贝叶斯派：对一件事情发生的相信程度(局部)

频率派从大量可重复的实验出发，表征一项事件发生的频率，贝叶斯从单个事件着眼，表征个人对这件事发生的相信程度。比如说川普开始竞选时，开始对川普当选这件事发生的概率为0.2，后来随着他的演讲以及对手猪一样的表现，我们进一步纠正我们的认知：川普当选率为0.5，虽然更多的事情发生，我们不停的改变认为川普当选的概率。

区别

角度1：

频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。

频率学派不关心参数空间的所有细节，相信数据都是在这个空间里的"某个"参数值下产生的（虽然你不知道那个值是啥），所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。他们关心的就是我有多大把握去圈出那个唯一的真实参数。
贝叶斯学派关心参数空间里的每一个值，因为他们觉得我们又没有上帝视角，怎么可能知道哪个值是真的呢？所以参数空间里的每个值都有可能是真实模型使用的值，区别只是概率不同而已。于是他们才会引入先验分布（prior distribution）和后验分布（posterior distribution）这样的概念来设法找出参数空间上的每个值的概率。

想象如果你的后验分布是双峰的，频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测，而贝叶斯学派则会同时报告这两个值，并给出对应的概率。

概率
频率派：事件在长时间内发生的频率(全局)
贝叶斯派：对一件事情发生的相信程度(局部)
比如说川普获选，小明作为一名高三学生考上大学的概率，按照贝叶斯派理解就更加合理

角度2：

频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。

频率学派直接针对“事件”建模，“事件”本身就是个随机变量，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。刻画的是客观已经存在且确定的规律，但这个规律我们不知道。建模的目的就是找到这个客观的规律。所以MLE的方法就是找到那个未知但确定的值。
贝叶斯学派从“观察者”的角度出发，从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来，并不是「事件本身具有某种客观的随机性」，而是「观察者不知道事件的结果」而已，只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下，观察者又试图通过已经观察到的「证据」来推断这一事件的结果，因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。

原文地址：https://www.cnblogs.com/SpingC/p/11663517.html

时间： 2024-10-07 12:08:35

理解频率派和贝叶斯派的相关文章

机器学习基础统计学（频率派与贝叶斯派）

一.频率派假设X为随机数据,其矩阵表示维度为N,假设θ为X随机数的特征,频率派认为在一次实验中,如果时间A发生了,那么则认为事件A的发生一定是事件A的概率最大,记为P(x=A)最大,由假设可知事件A发生的概率和θ有关. 极大似然是指一次试验就发生的事件,这个事件本身发生概率最大,极大似然估计具体求解与推导公式如下: 假设:x是服从某个概率的分别,可以用概率P =p(x|Θ),其中Θ为概率分布的某个特征值,p(x|Θ)为事件x发生的概率.现在进行一次关于x的试验,得到样本值为(x1,x2,x3,

机器学习理论基础学习1——频率派 VS 贝叶斯派

频率派贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 3)梯度下降/牛顿法求解概率图模型求积分(用蒙特卡洛方法取样) 原文地址:https://www.cnblogs.com/nxf-rabbit75/p/10272391.html

统计学中的频率学派与贝叶斯学派

对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西.这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题. 贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用.自20世纪初数理统计学大发展开始,一直到20世纪中叶,频率学派一直占据主导地位,当时诸多大咖如Fisher.K.Pearson等都属于频率学派,而从20世纪中叶以后,贝叶斯学派迅速发展壮大起来,可与频率学

机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测（2）

在机器学习中的贝叶斯方法---先验概率.似然函数.后验概率的理解及如何使用贝叶斯进行模型预测(1)文章中介绍了先验分布和似然函数,接下来,将重点介绍后验概率,以及先验概率.似然函数.后验概率三者之间的关系---贝叶斯公式. 在这篇文章中,我们通过最大化似然函数求得的参数 r 与硬币的抛掷次数(抛掷次数是10,求得的r=0.9)有关,为了更好地描述参数 r 与抛掷次数之间的关系,对下面符号作一些说明: 参数 r :抛一次硬币出现正面的概率,显然 r 的取值范围为[0,1] yN,在N次抛硬币

从贝叶斯方法谈到贝叶斯网络

0 引言事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料). 11月9日上午,机器学习班第9次课,邹博讲贝叶斯网络,其帮助大家提炼了贝叶斯网络的几个关

PGM：贝叶斯网络与朴素贝叶斯网络

http://blog.csdn.net/pipisorry/article/details/51471222 贝叶斯与频率派思想频率派思想长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大.而且事情发生或不发生的概率虽然未知,但最起码是一个确定的值. 比如如果问那时的人们一个问题:"有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?"他们会立马告诉你,取出白球的概率就是

转载-- 从贝叶斯方法谈到贝叶斯网络

从贝叶斯方法谈到贝叶斯网络 0 引言事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料). 11月9日上午,机器学习班第9次课,邹讲贝叶斯网络,其帮助

概率图模型：贝叶斯网络与朴素贝叶斯网络

贝叶斯vs频率派：武功到底哪家强？| 说人话的统计学·协和八（转）

回我们初次见识了统计学理论中的"独孤九剑"--贝叶斯统计学(戳这里回顾),它的起源便是大名鼎鼎的贝叶斯定理. 整个贝叶斯统计学的精髓可以用贝叶斯定理这一条式子来概括: 我们做数据分析,绝大多数情况下希望得到的是关于某种假说是否成立的信息.等式左边的P(参数 | 数据),正是在观察到了手头上的数据的前提下,假说成立的概率.这里的"参数",只不过是描述我们感兴趣的假说的数字而已. 比如说,在第1集<你真的懂p值吗?>里(戳这里回顾),蓝精灵抛一枚钢蹦儿,想知