贝叶斯公式的共轭分布

共轭分布是一种极大简化贝叶斯分析的方法。其作用是,在贝叶斯公式包含多种概率分布的情况下,使这些分布的未知参数在试验前被赋予的物理意义,延续到试验后,便于分析。

1. 贝叶斯公式

贝叶斯公式如下:

其中,表示模型中的未知参数,表示样本。这里有三个重要的概念:先验分布似然函数,以及后验分布

是先验分布,表示在观察样本之前,按照经验认为符合某种概率分布。比如说在抛硬币之前,我们认为正反两面出现的概率各为1/2。

是似然函数,表示在给定模型参数的条件下,样本数据服从这一概率模型的相似程度。

是后验分布,表示在观察一系列样本数据后,模型参数服从的概率分布。即,对先验分布进行了修正,更接近真实情况。

另外,因为是样本,所以是一个确定的值。

2. 共轭分布的定义

在贝叶斯公式中,如果先验分布和似然函数使得后验分布具有和先验分布相同的形式,那么就称先验分布和似然函数是共轭的

3. 举例说明

3.1 Beta分布与二项分布共轭

Beta概率函数如下:

其中,是一个常系数。除去常系数不看,Beta函数与二项分布函数具有相同的形式,即。如果把Beta分布当做先验分布,二项分布函数当做似然函数,那么通过贝叶斯公式计算得到的后验分布与先验分布具有相同的形式。所以,Beta分布和二项分布共轭。

3.2  Dirichlet分布与多项分布共轭

Beta分布扩展到多维是 Dirichlet分布(狄利克雷分布),二项分布扩展到多维就是多项分布。Dirichlet分布函数如下:

多项分布函数如下:

其中,K是指K维。都是常系数,不看常系数,Dirichlet函数与多项分布函数具有相同的形式,因此计算得到的后验分布也与先验分布有相同的形式。即,Dirichlet分布和多项分布式是共轭的。

时间: 2024-10-11 22:40:19

贝叶斯公式的共轭分布的相关文章

什么叫共轭先验或者共轭分布?

如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的. 现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗? 我之前就常常把这个关系弄错,现在记录如下,以加强印象. 贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有"贝叶斯原则"(即把先验信息当着均匀分布)等四大类 其中有重要影响的一类是:共轭先验 现在假设我们有这样几类概率:P(\theta)(先验分布), p(\theta|X)(后验分布),

【机器学习中的数学】多项式分布及其共轭分布

多项变量(Multinomial Variables) 二元变量是用来描述只有两种可能值的量,而当我们遇到一种离散变量,其可以有K种可能的状态.我们可以使用一个K维的向量x表示,其中只有一维xk为1,其余为0.对应于xk=1的参数为μk,表示xk发生时的概率.其分布可以看做是伯努利分布的一般化. 现在我们考虑N个独立的观测D={x1,-,xN},得到其似然函数.如图: 多项式分布(The Multinomial distribution) 现在我们考虑k个变量的联合分布,依赖于参数μ和N次观测,

共轭先验的理解

如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的. 现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗? 我之前就常常把这个关系弄错,现在记录如下,以加强印象. 贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有“贝叶斯原则“(即把先验信息当着均匀分布)等四大类 其中有重要影响的一类是:共轭先验 现在假设我们有这样几类概率:P(\theta)(先验分布), p(\theta|X)(后验分布), p(X),

各种分布(转)

. 伯努利分布 伯努利分布(Bernoulli distribution)又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial). 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言: 伯努利试验都可以表达为"是或否"的问题.例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验. 进行一次伯努利试验,成功(X=1)概率为p(0

先验概率、后验概率以及共轭先验

在贝叶斯学派的观点中,先验概率.后验概率以及共轭分布的概念非常重要.而在机器学习中,我们阅读很多资料时也要频繁地跟他们打交道.所以理清这些概念很有必要. 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji,为保证公式.图表得以正确显示,强烈建议你从该地址上查看原版博文.本博客主要关注方向包括:数字图像处理.算法设计与分析.数据结构.机器学习.数据挖掘.统计分析方法.自然语言处理. 贝叶斯定理:一个例子 其实我们在之前介绍朴素贝叶斯分类器时就介绍过它,如果

(转)Gamma分布,Beta分布,Multinomial多项式分布,Dirichlet狄利克雷分布

1. Gamma函数 首先我们可以看一下Gamma函数的定义: Gamma的重要性质包括下面几条: 1. 递推公式: 2. 对于正整数n, 有 因此可以说Gamma函数是阶乘的推广. 3.  4.  关于递推公式,可以用分部积分完成证明: 2. Beta函数 B函数,又称为Beta函数或者第一类欧拉积分,是一个特殊的函数,定义如下: B函数具有如下性质: 3. Beta分布 在介绍贝塔分布(Beta distribution)之前,需要先明确一下先验概率.后验概率.似然函数以及共轭分布的概念.

伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

1. 伯努利分布 伯努利分布(Bernoulli distribution)又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial). 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言: 伯努利试验都可以表达为“是或否”的问题.例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验.进行一次伯努利试验,成功(X=1)概率为p(0<=p<

机器学习----分布问题(二元,多元变量分布,Beta,Dir)

这涉及到数学的概率问题. 二元变量分布:          伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的 取值就应

常用的概率分布:二项式分布,贝塔分布,狄里克雷分布

知识点:伯努利分布.二项式分布.多项式分布.先验概率,后验概率,共轭分布.贝塔分布.贝塔-二项分布.负二项分布.狄里克雷分布,伽马函数.分布 一,伯努利分布(bernouli distribution) 又叫做0-1分布,指一次随机试验,结果只有两种.也就是一个随机变量的取值只有0和1.记为: 0-1分布 或B(1,p),其中 p 表示一次伯努利实验中结果为正或为1的概率. 概率计算: P(X=0)=p0P(X=1)=p1 期望计算: E(X)=0?p0+1?p1=p 最简单的例子就是,抛一次硬