二元变量（伯努利分布、二项式分布以及Beta分布）

概率分布（一)

参数分布

取这个名字是因为少量的参数可以控制整个概率分布。如高斯分布，我们只需要控制其期望和方差就可以得到一个特定的概率分布。

频率学家的观点：通过最优化某些准则（如似然函数）来确定参数的具体值。

贝叶斯观点：给定观察数据，先引入参数的先验分布，然后用贝叶斯定理计算对应的后验概率分布。共轭先验(conjugate prior)使后验概率的分布函数形式与先验概率相同，极大的简化了贝叶斯分析。

参数方法与非参数方法

参数方法是假定分布为某一个具体的函数形式，然后估计其参数。非参数方法则依赖数据集的规模。非参数方法中的模型也有参数，但不是用来控制模型的参数，而是用于控制模型的复杂度。

二元变量

伯努利分布(Bernoulli distribution)

考虑一个不均匀硬币，抛掷硬币时其正面朝上的概率由参数\(\mu \in [0,1]\)决定，则\(p(x=1|\mu)=\mu\)。

伯努利分布可以表示为：
\[
Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
\]
其期望和方差为：
\[
E(x)=\mu \Var(x)=\mu(1-\mu)
\]
对数似然函数为（\(D\)为数据集）：
\[
\ln p(D|\mu)=\sum_{n=1}^N(x_n\ln\mu+(1-x_n)\ln(1-\mu))\\mu_{MLE}=\frac{m}{N}
\]
\(m\)为\(N\)次实验中硬币正面向上的次数。

二项分布(Binomial distribution)

由伯努利分布延伸，我们考虑抛掷\(N\)次硬币时正面向上的次数\(x\)的分布：
\[
Bin(x|N,\mu)=\dbinom{N}{x}\mu^x(1-\mu)^{N-x}
\]
其中：
\[
\dbinom{N}{x} = \frac{N!}{(N-x)!x!}
\]
表示从完全相同的\(N\)个物体中选出\(x\)个物体的方案数量。

由于多次实验之间相互独立，所以其期望和方差为伯努利分布期望和方差值的和：
\[
E(x)=N\mu \Var(x) =N\mu(1-\mu)
\]

Beta分布

Beta分布是二项式分布的共轭先验分布。

在伯努利分布中给出的\(\mu\)的最大似然解对小规模的数据集会产生严重的过拟合结果。所以我们用贝叶斯观点，引入一个关于\(\mu\)的先验概率分布来解决这个问题。（就是说用下面的公式，通过似然函数与先验分布的乘积得到我们需要的结果，现在的问题就是如何找到合适的先验分布）

接下来介绍的基础知识可以去Gamma分布与共轭先验查找。

对于后验概率分布：
\[
p(\theta|x)=c_xL(\theta,x)p(\theta)
\]
\(c_x\)为\(x\)分布的导数，这里与\(\theta\)无关可以视为常数；\(L(\theta,x)\)为其最大似然函数；\(p(\theta)\)为先验概率分布。可以看出后验概率分布正比于似然函数和先验概率分布的乘积。

再观察伯努利分布的似然函数包含了\(\mu^x(1-\mu)^{1-x}\)，所以我们要找到一个有这种形式的先验概率分布，那么得到的后验概率分布形式与先验相同，也叫共轭分布。

这时我们就找到了Beta分布（\(a\)与\(b\)为超参数），可以简单记作\(a+b\)次实验得到了\(a\)次正例：
\[
Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
\]
我们用第一项保证了Beta分布的归一化（再无其他作用），即：
\[
\int_0^1Beta(\mu|a,b)\,d\mu=1
\]
Beta分布的期望和方差为：
\[
E(\mu)=\frac{a}{a+b}\Var(\mu)=\frac{ab}{(a+b)^2(a+b+1)}
\]
由此我们可以得到后验概率分布：
\[
p(\mu|x,N-x,a,b) \propto\mu^{x+a-1}(1-\mu)^{N-x+b-1}
\]
为了归一化（使其积分为1），加入因子：
\[
p(\mu|x,N-x,a,b) =\frac{\Gamma(N+a+b)}{\Gamma(x+a)\Gamma(N-x+b)}\mu^{x+a-1}(1-\mu)^{N-x+b-1}
\]
可以看到此时的期望为：\(\frac{x+a}{N+a+b}\)，可以理解成在已经做了\(a+b\)次实验得到\(a\)次正面朝上的基础上，又做了\(N\)次实验，得到了\(x\)次正面朝上，这不过这里\(a,b\)不一定为整数。

延伸一下，在实时学习中，可以把现在的后验概率分布当作下一次观测的先验概率，在此基础上求出新的后验概率分布。

在平均情况下，后验的方差小于先验。

原文地址：https://www.cnblogs.com/LvBaiYang/p/12207642.html

时间： 2024-10-12 20:00:27

二元变量（伯努利分布、二项式分布以及Beta分布）

概率分布（一)

参数分布

参数方法与非参数方法

二元变量

伯努利分布(Bernoulli distribution)

二项分布(Binomial distribution)

Beta分布

二元变量（伯努利分布、二项式分布以及Beta分布）的相关文章

（转）Gamma分布，Beta分布，Multinomial多项式分布，Dirichlet狄利克雷分布

机器学习----分布问题（二元，多元变量分布，Beta，Dir）

分布问题（二元，多元变量分布，Beta，Dir）

二项分布，多项分布，以及与之对应的beta分布和狄利克雷分布

Beta分布从入门到精通

Beta分布和Dirichlet分布

伯努利分布详解(包含该分布数字特征的详细推导步骤)

二项分布多项分布伽马函数 Beta分布

【机器学习中的数学】多项式分布及其共轭分布