高斯函数与正态分布
高斯函数或者说正态分布函数在很多场合都得到广泛应用,其是概率论和统计学的核心,在最大似然估计、贝叶斯估计中必不可少。其也是稀疏贝叶斯估计的重要基础。下面对高斯函数的一些基本知识点进行归纳和总结,不当之处,欢迎批评指正。
(1) 高斯函数
高斯函数定义如下
\begin{equation}
f(x)=aexp(-\frac{(x-b)^2}{2c^2})
\end{equation}
其中$a$, $b$,$c$ 为对应的参数。高斯函数是一个钟形曲线。其中参数$a$控制函数的幅度,参数$b$控制钟形曲线的水平位置,参数$c$反应钟形曲线钟的宽度。
(2) 一维正态分布
令$a=\frac{1}{\sqrt{2\pi}\sigma}$, $b=\mu$, $c=\sigma$, 可得一维随机变量$x$高斯概率密度函数为
\begin{equation}
f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
\end{equation}
其中$\mu$,$\sigma^2$分别表示均值和方差。当$\mu=0$以及$\sigma=1$时,即为标准正态分布。此时
\begin{equation}
f(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})
\end{equation}
由高斯概率密度函数的定义知
\begin{equation}
\int_{-\infty}^{+\infty}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2\sigma^2}}dx=\sqrt{2\pi}\sigma
\end{equation}
以及
\begin{equation}
\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx=\sqrt{2\pi}
\end{equation}
当然上述结果也可以由积分得到。比如令$s=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx$,则$s^2=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy=\int_{-\infty}^{\infty}{\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}}dxdy=\int_{0}^{2\pi}\int_{0}^{+\infty}e^{-\frac{r^2}{2}}rdrd\theta=2\pi$,故得到上述结果。
均值决定高斯分布密度函数的位置,方差反应随机变量偏离均值的距离。方差越大,概率密度函数越平坦,方差越小,概率密度函数越尖锐、窄小,如下图所示。
(3)多维高斯分布的概率密度函数
任意$N$维随机变量高斯概率密度函数可以由多维独立随机变量的概率密度函数导出,例如令$\bm{y}=\bm{A}(\bm{x}-\bm{\mu})$,用$\mu$进行平移,矩阵$\bm{A}$进行相关变换。具体过程忽略,可参考知乎或相关博客讲解。$N$维高斯分布的概率密度函数如下
\begin{equation}
f(\bm{x})=(2\pi)^{-\frac{N}{2}}\left| \bm{\Sigma}\right| ^{-\frac{1}{2}}exp[-\frac{1}{2}(\bm{x}-\bm{\mu})^T\Sigma^{-1}(\bm{x}-\bm{\mu})]
\end{equation}
式中$\bm{\mu}$表示均值向量,$\bm{\Sigma}$表示协方差矩阵。指数部分可以写成另外的形式$L=-\frac{1}{2}(\bm{x}-\bm{\mu})^T\Sigma^{-1}(\bm{x}-\bm{\mu})=-\frac{1}{2}(\bm{x}^T\bm{\Sigma}^{-1}\bm{x}-2\bm{\mu}^T\bm{\Sigma}^{-1}\bm{x}+\bm{\mu}^T\bm{\Sigma}^{-1}\bm{\mu})$
两个及多个高斯分布的乘积
(1) 两个高斯概率密度函数的乘积
现有两个高斯函数分布,分别可以表示为$f(x;\mu_1,\sigma_1)=\frac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})$以及为$f(x;\mu_2,\sigma_2)=\frac{1}{\sqrt{2\pi}\sigma_2}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})$,则它们的乘积可以表示为
\begin{equation}
g(x)=f(x;\mu_1,\sigma_1)f(x;\mu_2,\sigma_2)=\frac{1}{2\pi\sigma_1\sigma_2}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(x-\mu_2)^2}{2\sigma_2^2})
\end{equation}
令$L=-\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(x-\mu_2)^2}{2\sigma_2^2}$,可采用配方法得到高斯密度函数的形式,这里采用求导法。很明显高斯密度函数的指数部分的一阶导数在均值处有零点,二阶导数与方差的倒数(多维向量为协方差矩阵的逆)成正比,正比系数为-1。令
\begin{equation}
\frac{dL}{dx}=-\frac{x-\mu_1}{2\sigma_1^2}-\frac{x-\mu_2}{2\sigma_2^2}=0
\end{equation}
得出$x=\frac{\frac{\mu_1}{\sigma_1^2}+\frac{\mu_2}{\sigma_2^2}}{\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}}=\frac{\mu_1\sigma_2^2+\mu_2\sigma_1^2}{\sigma_1^2+\sigma_2^2}.$
再令$\Lambda_i=1/\sigma_i^2$, for $i=1,2$,则可以得到新的高斯分布的均值$\mu$为
\begin{equation}
\mu=\frac{\Lambda_1\mu_1+\Lambda_2\mu_2}{\Lambda_1+\Lambda_2}
\end{equation}
继续求导有$\frac{d^2L}{d^2x}=-\frac{1}{\sigma_1^2}-\frac{1}{\sigma_2^2}$。即新高斯分布的方差应满足
\begin{equation}
\frac{1}{\sigma^2}=\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}
\end{equation}
所以关于两个高斯概率密度函数的乘积有如下结论:两个高斯概率密度函数的乘积仍然为高斯分布,其均值为原始两个高斯分布的均值加权和,权值为对应方差的倒数;新高斯分布方差的倒数为原始两个高斯分布的方差倒数之和。
(2)多个高斯概率密度函数的乘积
上述结论可以推广到多个高斯概率密度函数的乘积。假设有$f(x_i;\mu_i,\sigma_i^2)$,$i=1,2,\dots,N$,令
\begin{equation}
g(x)=\prod_{i=1}^{N}(f(x_i;\mu_i,\sigma_i^2))
\end{equation}
则$g(x)$也是一个高斯函数,其均值方差满足
\begin{equation}
\left\{
\begin{aligned}
\mu & = \frac{\sum_{i=1}^{N}\Lambda_i\mu_i}{\sum_{i=1}^{N}\Lambda_i}\\
\Lambda & = \sum_{i=1}^{N}\Lambda_i
\end{aligned}
\right.
\end{equation}
其中$\Lambda_i=1/\sigma_i^2$为第$i$个高斯函数的方差的倒数。
(3)多个多维高斯密度函数的乘积
首先多维高斯概率密度函数$f(\bm{x})=exp\{-\frac{1}{2}(\bm{x}^T\bm{\Sigma}^{-1}\bm{x}-2\bm{\mu}^T\bm{\Sigma}^{-1}\bm{x}+\bm{\mu}^T\bm{\Sigma}^{-1}\bm{\mu})\}$可以写成
\begin{equation}
f(\bm{x})=exp[\bm{\zeta}+\bm{\eta}^T\bm{x}-\frac{1}{2}\bm{x}^T\bm{\Psi x}]
\end{equation}
其中$\bm{\Psi}=\Sigma^{-1}$,$\bm{\eta}=\Sigma^{-1}\mu$,$\zeta=-\frac{1}{2}(Nln(2\pi)-ln\Psi+\bm{\eta}^T\bm{\Psi}^{-1}\bm{\eta})$。现假设有$N$个高斯分布的概率密度函数$f_i(x)=exp[\bm{\zeta}^i+\bm{\eta}_i^T\bm{x}-\frac{1}{2}\bm{x}^T\bm{\Psi}_i\bm{x}]$,其乘积为
\begin{equation}
g(\bm{x})=\prod_{i=1}^Nf_i(\bm{x})=exp\left[\sum_{i=1}^{N}\zeta_i+(\sum_{i=1}^{N}\bm{\eta}_i^T)\bm{x}-\frac{1}{2}\bm{x}^T(\sum_{i=1}^{N}\bm{\Psi}_i)\bm{x}\right]
\end{equation}
令$\bm{\Psi}=\sum_{i=1}^{N}\bm{\Psi_i}$,
$\bm{\eta}=\sum_{i=1}^{N}\bm{\eta_i}=\sum_{i=1}^{N}\bm{\Sigma}_i^{-1}\mu_i=\sum_{i=1}^{N}\bm{\Psi_i\mu_i}\triangleq\bm{\Psi\mu}$时,$g(\bm{x})$可以进一步写成
\begin{equation}
g(\bm{x})=exp(-\bm{\zeta}+\sum_{i=1}^{N}\bm{\zeta_i})exp(\bm{\zeta}+\bm{\eta}^T\bm{x}-\frac{1}{2}\bm{x}^T\bm{\Psi}^T\bm{x})
\end{equation}
其中$\zeta=-\frac{1}{2}(Nln(2\pi)-ln\Psi+\bm{\eta}^T\bm{\Psi}^{-1}\bm{\eta})$
\\可以得出结论:多个多维高斯分布概率密度函数的乘积等于一个高斯分布概率密度函数与一个常数的乘积,也就是一个高斯函数
两个高斯分布的卷积
函数$f(x)$与$g(x)$的卷积为
\begin{equation}
f(x)\otimes g(x)=\int_{-\infty}^{+\infty}f(x-\tau)g(\tau)d\tau
\end{equation}
这里要用到傅里叶变换及卷积定理,卷积定理简单说是指时域的卷积等于频域的乘积。
假设$f(x)=\frac{1}{\sqrt{2\pi}\sigma_f}exp[-\frac{(x-\mu_f)^2}{2\sigma_f^2}]$,$g(x)=\frac{1}{\sqrt{2\pi}\sigma_g}exp[-\frac{(x-\mu_g)^2}{2\sigma_g^2}]$,有
\begin{equation}
F(f(x))=\int_{-\infty}^{+\infty}f(x)e^{-j\omega x}dx=\frac{1}{\sqrt{2\pi}\sigma_f}\int_{-\infty}^{+\infty}exp[-\frac{(x-\mu_f)^2}{2\sigma_f^2}]exp(-j\omega x)dx
\end{equation}
令$x-\mu_f=t$,则
\begin{equation}
\begin{aligned}
F(f(x))&=\frac{exp(j\omega \mu_f)}{\sqrt{2\pi}\sigma_f}\int_{-\infty}^{+\infty}exp(-\frac{t^2}{2\sigma_f^2})exp(-j\omega t)dt\\
&=\frac{2exp(j\omega \mu_f)}{\sqrt{2\pi}\sigma_f}\int_{0}^{+\infty}exp(-\frac{t^2}{2\sigma_f^2})cos(\omega t)dt
\end{aligned}
.
\end{equation}
由积分$\int_{0}^{+\infty}e^{-at^2}cos(2xt)dt=\frac{1}{2}\sqrt{\frac{\pi}{a}}e^{-\frac{x^2}{a}}$可得
\begin{equation}
F(f(x))=e^{j\omega \mu_f}e^{-\frac{\omega^2\sigma_f^2}{2}}
\end{equation}
可以看出高斯概率密度函数的傅里叶变换仍然是一个高斯分布。进一步有
\begin{equation}
F(f(x))F(g(x))=e^{j\omega(\mu_f+\mu_g)}e^{-\frac{\omega^2(\sigma_f^2+\sigma_g^2)}{2}}
\end{equation}
根据卷积定理有,
\begin{equation}
f(x)\otimes g(x)=F^{-1}(F(f(x))F(g(x)))=\frac{1}{\sqrt{2\pi}(\sigma_f+\sigma_g)}exp[-\frac{(x-(\mu_f+\mu_g)^2)}{2(\sigma_f^2+\sigma_g^2)}]
\end{equation}
即可得出结论:两个高斯分布的卷积仍然是一个高斯分布,新高斯分布的均值为原有高斯分布均值之和,方差为原有两个高斯分布的方差和。
Reference
[1] P.A.Bromiley. Products and Convolutions of Gaussian Probability Density Functions.2018
附录
A1、关于求导的一些相关性质,在最大似然估计等地方可能用到。
\begin{equation}
\frac{\partial(\bm{AB})}{\partial x}=\frac{\partial \bm{A}}{\partial x}\bm{B}+\bm{A}\frac{\partial \bm{B}}{\partial x}
\end{equation}
\begin{equation}
\frac{\partial}{\partial x}\bm{A}^{-1}=-\bm{A}^{-1}\frac{\partial \bm{A}}{\partial x}\bm{\bm(A)}^{-1}
\end{equation}
\begin{equation}
\frac{\partial}{\partial x}ln\left| \bm{A}\right| =(\bm{A}^{-1})^T
\end{equation}
A2、关于求解高斯分布的概率密度函数的均值和方差
\\
假如有如下高斯分布,$f(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}$,令指数$L=-\frac{(x-\mu_1)^2}{2\sigma_1^2}$,显然指数$L$的一阶导数在均值$\mu$处有零点。二阶导数恰好为方差的倒数的相反数$-1/\sigma_1^2$。结果同样适用于多维高斯分布,此时二阶导数应为协方差矩阵的逆的相反数。
原文地址:https://www.cnblogs.com/shuangli0824/p/10854560.html