共轭先验(conjugate prior)

共轭是贝叶斯理论中的一个概念,一般共轭要说是一个先验分布与似然函数共轭;

那么就从贝叶斯理论中的先验概率,后验概率以及似然函数说起:

在概率论中有一个条件概率公式,有两个变量第一个是A,第二个是B ,A先发生,B后发生,B的发生与否是与A有关系的,那么我们要想根据B的发生情况来计算 A发生的概率就是所谓的后验概率P(A|B)(后验概率是一个条件概率,即在B发生的条件下A发生的概率)计算公式是P(A|B)=P(AB)/P(B),而又有乘法公式P(AB)=P(A)P(B|A),这里的P(A)称为先验概率,它是先发生的,也可以是人为假定的,但是通常是不能通过训练样本直接统计得出的,所以我们的需要利用后验概率来求取先验概率,也就是通常意义上的由果推因。后验概率是在新的样本加入之后得到的,有更多的事实作为参考,进而对先验进行修正。似然函数则是指P(B|A),也是一个条件概率,是指在先验发生的条件下后验发生的可能性,是一种正向推理的过程,通常是模型参数的函数。

即P(A|B)=P(A)P(B|A)/P(B),中P(A)称为先验概率,P(B|A)似然函数,P(A|B)后验概率。

三者的关系:

后验概率正比于先验概率与似然函数的乘积

Posterior probability∝Likelihood×Prior probability

在使用中我们用 p(θ) 表示概率分布函数,用 p(x|θ) 表示观测值 x 的似然函数。

后验概率定义如下:p(θ|x)=p(x|θ)p(θ)/p(x)

下面来谈共轭

现在假设我们有这样几类概率: p(θ)(先验分布),p(θ|x)(后验分布), p(X), p(X|θ) (似然函数)

它们之间的关系可以通过贝叶斯公式进行连接: 后验分布 = 似然函数* 先验分布/ P(X)

之所以采用共轭先验的原因是可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

为了使得先验分布和后验分布的形式相同,我们定义:如果先验分布和似然函数可以使得先验分布和后验分布有相同的形式,那么就称先验分布与似然函数是共轭的,共轭的结局是让先验与后验具有相同的形式

注意:共轭是指的先验分布和似然函数

两个例子

Beta is the conjugate prior of Binomial.

Dirichlet is the conjugate prior of multinomial.

时间: 2024-08-01 17:03:52

共轭先验(conjugate prior)的相关文章

先验概率、后验概率以及共轭先验

在贝叶斯学派的观点中,先验概率.后验概率以及共轭分布的概念非常重要.而在机器学习中,我们阅读很多资料时也要频繁地跟他们打交道.所以理清这些概念很有必要. 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji,为保证公式.图表得以正确显示,强烈建议你从该地址上查看原版博文.本博客主要关注方向包括:数字图像处理.算法设计与分析.数据结构.机器学习.数据挖掘.统计分析方法.自然语言处理. 贝叶斯定理:一个例子 其实我们在之前介绍朴素贝叶斯分类器时就介绍过它,如果

共轭先验的理解

如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的. 现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗? 我之前就常常把这个关系弄错,现在记录如下,以加强印象. 贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有“贝叶斯原则“(即把先验信息当着均匀分布)等四大类 其中有重要影响的一类是:共轭先验 现在假设我们有这样几类概率:P(\theta)(先验分布), p(\theta|X)(后验分布), p(X),

共轭先验

Bayes公式告诉我们\begin{align*} p(y|x) = \frac{p(x|y)p(y)}{p(x)} \end{align*}其中$p(y)$被称为先验分布,是我们对随机变量$y$的初始信念:$p(x|y)$被称作似然,它表示的是在给定$y$的条件下$x$的概率,这个可从观测数据中得到:$p(y|x)$则是后验分布,它表示的是在看到数据后,我们对随机变量$y$的新的信念. 一般来说,给定一个似然,后验与先验不会属于同一个分布族,但也存在一些特例,当先验与后验同属一个分布族时,该先

什么叫共轭先验或者共轭分布?

如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的. 现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗? 我之前就常常把这个关系弄错,现在记录如下,以加强印象. 贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有"贝叶斯原则"(即把先验信息当着均匀分布)等四大类 其中有重要影响的一类是:共轭先验 现在假设我们有这样几类概率:P(\theta)(先验分布), p(\theta|X)(后验分布),

主题模型TopicModel:LDA中的数学模型

http://blog.csdn.net/pipisorry/article/details/42672935 了解LDA需要明白如下数学原理: 一个函数:gamma函数 四个分布:二项分布.多项分布.beta分布.Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA.LDA(文档-主题,主题-词语) 一个采样:Gibbs采样 估计未知参数所采用的不同思想:频率学派.贝叶斯学派 皮皮Blog gamma函数 Gamma函数 Γ(x)=∫∞0tx?1e?tdt 通过

贝叶斯线性回归(Bayesian Linear Regression)

贝叶斯线性回归(Bayesian Linear Regression) 标签(空格分隔): 监督学习 @ author : [email protected] @ time : 2015-06-19 原文地址 贝叶斯线性回归Bayesian Linear Regression 原文地址 关于参数估计 极大似然估计 渐进无偏 渐进一致 最大后验估计 贝叶斯估计 贝叶斯估计核心问题 贝叶斯估计第一个重要元素 贝叶斯估计第二个重要元素 贝叶斯估计的增量学习 贝叶斯线性回归 贝叶斯线性回归的学习过程 贝

二元变量(伯努利分布、二项式分布以及Beta分布)

概率分布(一) 参数分布 取这个名字是因为少量的参数可以控制整个概率分布.如高斯分布,我们只需要控制其期望和方差就可以得到一个特定的概率分布. 频率学家的观点:通过最优化某些准则(如似然函数)来确定参数的具体值. 贝叶斯观点:给定观察数据,先引入参数的先验分布,然后用贝叶斯定理计算对应的后验概率分布.共轭先验(conjugate prior)使后验概率的分布函数形式与先验概率相同,极大的简化了贝叶斯分析. 参数方法与非参数方法 参数方法是假定分布为某一个具体的函数形式,然后估计其参数.非参数方法

【机器学习中的数学】贝叶斯框架下二元离散随机变量的概率分布

引言 我感觉学习机器学习算法还是要从数学角度入门才是唯一正道,机器学习领域大牛Michael I. Jordan给出的机器学习定义是,"A field that bridge computation and statistics,with ties to information theory, signal processing, algorithm, control theory and optimization theory".所以对于机器学习的门徒来说,我认为将计算机和统计理论有

Bayesian statistics

目录 1Bayesian model selection贝叶斯模型选择 1奥卡姆剃刀Occams razor原理 2Computing the marginal likelihood evidence 2-1 BIC approximation to log marginal likelihood 2-2贝叶斯因子 3先验 3-1 确定无信息先验分布的Jeffreys原则 3-2共轭先验Conjugate Priors 4Hierarchical Bayes 5Empirical Bayes 6