二元变量(伯努利分布、二项式分布以及Beta分布)

概率分布(一)

参数分布

取这个名字是因为少量的参数可以控制整个概率分布。如高斯分布,我们只需要控制其期望和方差就可以得到一个特定的概率分布。

频率学家的观点:通过最优化某些准则(如似然函数)来确定参数的具体值。

贝叶斯观点:给定观察数据,先引入参数的先验分布,然后用贝叶斯定理计算对应的后验概率分布。共轭先验(conjugate prior)使后验概率的分布函数形式与先验概率相同,极大的简化了贝叶斯分析。

参数方法与非参数方法

参数方法是假定分布为某一个具体的函数形式,然后估计其参数。非参数方法则依赖数据集的规模。非参数方法中的模型也有参数,但不是用来控制模型的参数,而是用于控制模型的复杂度。

二元变量

伯努利分布(Bernoulli distribution)

考虑一个不均匀硬币,抛掷硬币时其正面朝上的概率由参数\(\mu \in [0,1]\)决定,则\(p(x=1|\mu)=\mu\)。

伯努利分布可以表示为:
\[
Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
\]
其期望和方差为:
\[
E(x)=\mu \Var(x)=\mu(1-\mu)
\]
对数似然函数为(\(D\)为数据集):
\[
\ln p(D|\mu)=\sum_{n=1}^N(x_n\ln\mu+(1-x_n)\ln(1-\mu))\\mu_{MLE}=\frac{m}{N}
\]
\(m\)为\(N\)次实验中硬币正面向上的次数。

二项分布(Binomial distribution)

由伯努利分布延伸,我们考虑抛掷\(N\)次硬币时正面向上的次数\(x\)的分布:
\[
Bin(x|N,\mu)=\dbinom{N}{x}\mu^x(1-\mu)^{N-x}
\]
其中:
\[
\dbinom{N}{x} = \frac{N!}{(N-x)!x!}
\]
表示从完全相同的\(N\)个物体中选出\(x\)个物体的方案数量。

由于多次实验之间相互独立,所以其期望和方差为伯努利分布期望和方差值的和:
\[
E(x)=N\mu \Var(x) =N\mu(1-\mu)
\]

Beta分布

Beta分布是二项式分布的共轭先验分布。

在伯努利分布中给出的\(\mu\)的最大似然解对小规模的数据集会产生严重的过拟合结果。所以我们用贝叶斯观点,引入一个关于\(\mu\)的先验概率分布来解决这个问题。(就是说用下面的公式,通过似然函数与先验分布的乘积得到我们需要的结果,现在的问题就是如何找到合适的先验分布)

接下来介绍的基础知识可以去Gamma分布与共轭先验查找。

对于后验概率分布:
\[
p(\theta|x)=c_xL(\theta,x)p(\theta)
\]
\(c_x\)为\(x\)分布的导数,这里与\(\theta\)无关可以视为常数;\(L(\theta,x)\)为其最大似然函数;\(p(\theta)\)为先验概率分布。可以看出后验概率分布正比于似然函数和先验概率分布的乘积。

再观察伯努利分布的似然函数包含了\(\mu^x(1-\mu)^{1-x}\),所以我们要找到一个有这种形式的先验概率分布,那么得到的后验概率分布形式与先验相同,也叫共轭分布。

这时我们就找到了Beta分布(\(a\)与\(b\)为超参数),可以简单记作\(a+b\)次实验得到了\(a\)次正例:
\[
Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
\]
我们用第一项保证了Beta分布的归一化(再无其他作用),即:
\[
\int_0^1Beta(\mu|a,b)\,d\mu=1
\]
Beta分布的期望和方差为:
\[
E(\mu)=\frac{a}{a+b}\Var(\mu)=\frac{ab}{(a+b)^2(a+b+1)}
\]
由此我们可以得到后验概率分布:
\[
p(\mu|x,N-x,a,b) \propto\mu^{x+a-1}(1-\mu)^{N-x+b-1}
\]
为了归一化(使其积分为1),加入因子:
\[
p(\mu|x,N-x,a,b) =\frac{\Gamma(N+a+b)}{\Gamma(x+a)\Gamma(N-x+b)}\mu^{x+a-1}(1-\mu)^{N-x+b-1}
\]
可以看到此时的期望为:\(\frac{x+a}{N+a+b}\),可以理解成在已经做了\(a+b\)次实验得到\(a\)次正面朝上的基础上,又做了\(N\)次实验,得到了\(x\)次正面朝上,这不过这里\(a,b\)不一定为整数。

延伸一下,在实时学习中,可以把现在的后验概率分布当作下一次观测的先验概率,在此基础上求出新的后验概率分布。

在平均情况下,后验的方差小于先验。

原文地址:https://www.cnblogs.com/LvBaiYang/p/12207642.html

时间: 2024-10-12 20:00:27

二元变量(伯努利分布、二项式分布以及Beta分布)的相关文章

(转)Gamma分布,Beta分布,Multinomial多项式分布,Dirichlet狄利克雷分布

1. Gamma函数 首先我们可以看一下Gamma函数的定义: Gamma的重要性质包括下面几条: 1. 递推公式: 2. 对于正整数n, 有 因此可以说Gamma函数是阶乘的推广. 3.  4.  关于递推公式,可以用分部积分完成证明: 2. Beta函数 B函数,又称为Beta函数或者第一类欧拉积分,是一个特殊的函数,定义如下: B函数具有如下性质: 3. Beta分布 在介绍贝塔分布(Beta distribution)之前,需要先明确一下先验概率.后验概率.似然函数以及共轭分布的概念.

机器学习----分布问题(二元,多元变量分布,Beta,Dir)

这涉及到数学的概率问题. 二元变量分布:          伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的 取值就应

分布问题(二元,多元变量分布,Beta,Dir)

这涉及到数学的概率问题. 二元变量分布:       伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的取值就应该是8/

二项分布 , 多项分布, 以及与之对应的beta分布和狄利克雷分布

1. 二项分布与beta分布对应 2. 多项分布与狄利克雷分布对应 3. 二项分布是什么?n次bernuli试验服从 二项分布 二项分布是N次重复bernuli试验结果的分布. bernuli实验是什么?做一次抛硬币实验,该试验结果只有2种情况,x= 1, 表示正面. x=0,表示反面. bernuli(x|p) = p^x*(1-p)^(1-x).如果了n次, 我们只要数一下正面的次数n_x,即可得到反面的次数n-n_x. n次重复的nernuli试验: n-bernuli(n_x|N,p)

Beta分布从入门到精通

最近一直有点小忙,但是不知道在瞎忙什么,终于有时间把Beta分布的整理弄完. 下面的内容,夹杂着英文和中文,呵呵- Beta Distribution Beta Distribution Definition: The Beta distribution is a special case of the Dirichlet distribution, and is related to the Gamma distribution. It has the probability distribu

Beta分布和Dirichlet分布

在<Gamma函数是如何被发现的?>里证明了\begin{align*} B(m, n) = \int_0^1 x^{m-1} (1-x)^{n-1} \text{d} x = \frac{\Gamma (m) \Gamma (n)}{\Gamma (m+n)} \end{align*}于是令\begin{align*} f_{m,n}(x) = \begin{cases} \frac{x^{m-1} (1-x)^{n-1}}{B(m, n)} = \frac{\Gamma (m+n)}{\G

伯努利分布详解(包含该分布数字特征的详细推导步骤)

Bernouli Distribution(中文翻译称伯努利分布) 该分布研究的是一种特殊的实验,这种实验只有两个结果要么成功要么失败,且每次实验是独立的并每次实验都有固定的成功概率p. 概率公式可以表示为  , x只能为0或者1,即要么成功要么失败 根据数学期望的性质 由于这里x只有两个取值所以该分布的数学期望为 方差则可以由方差公式来计算 方差公式:  该分布显然, 因此可以得到, 所以方差  最后我们来推导该分布的最大似然估计 是这样定义的,假设我们做了N次实验,得到的结果集合为 ,我们想

二项分布 多项分布 伽马函数 Beta分布

http://blog.csdn.net/shuimu12345678/article/details/30773929 0-1分布: 在一次试验中,要么为0要么为1的分布,叫0-1分布. 二项分布: 做n次伯努利实验,每次实验为1的概率为p,实验为0的概率为1-p;有k次为1,n-k次为0的概率,就是二项分布B(n,p,k). 二项分布计算: B(n,p,k) = 换一种表达方式,做n次伯努利实验,每次实验为1的概率是p1, 实验为0的概率是p2,有p1+p2=1:问x1次为实验为1,x2次实

【机器学习中的数学】多项式分布及其共轭分布

多项变量(Multinomial Variables) 二元变量是用来描述只有两种可能值的量,而当我们遇到一种离散变量,其可以有K种可能的状态.我们可以使用一个K维的向量x表示,其中只有一维xk为1,其余为0.对应于xk=1的参数为μk,表示xk发生时的概率.其分布可以看做是伯努利分布的一般化. 现在我们考虑N个独立的观测D={x1,-,xN},得到其似然函数.如图: 多项式分布(The Multinomial distribution) 现在我们考虑k个变量的联合分布,依赖于参数μ和N次观测,