By Yunduan Cui
这是我自己的PRML学习笔记,目前持续更新中。
第二章 Probability Distributions 概率分布
本章介绍了书中要用到的概率分布模型,是之后章节的基础。已知一个有限集合 \(\{x_{1}, x_{2},..., x_{n}\}\), 概率分布是用来建立一个模型:\(p(x)\). 这一问题又称作密度估计( density estimation ).
主要内容
1. Binomial and Multinomial distributions 面向离散随机变量的伯努利分布与多项分布
2. Gaussian distribution 面向连续随机变量的高斯分布
3. 针对高斯分布的参数估计:频率学派/贝叶斯学派
4. 共轭先验,以及各个概率分布的统一
5. 参数/无参数方法
2.1 Binary Variables 二进制变量
- 伯努利分布(Bernoulli distribution)
定义二进制随机变量 \(x \in \{0, 1\}\),伯努利分布满足:
\(Bern(x|\mu)=\mu^{x}(1-\mu)^{1-x}\)
其中 \(\mu\) 是控制该分布的参数,符合:
\(p(x=1|\mu)=\mu\).
伯努利分布的期望与方差满足:
\(\mathbb{E}[x] = \mu\)
\(var[x] = \mu(1-\mu)\)
当有一个观测集合 \(\mathcal{D}=\{x_{1}, x_{2},..., x_{n}\}\) 并假设观测之间都是相互独立的,我们就能得到一个关于 \(\mu\) 的似然函数(likelihood function):
\(p(\mathcal{D}|\mu)=
\displaystyle{\prod_{n=1}^{N}}p(x_{n}|\mu)=\displaystyle{\prod_{n=1}^{N}}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\)
在求最大似然函数时,这种形式非常不方便运算,我们对\(p(\mathcal{D}|\mu)\)的对数式进行计算(转化连乘为连加):
\(\ln{p(\mathcal{D}|\mu)}=
\displaystyle{\sum_{n=1}^{N}}\ln{p}(x_{n}|\mu)=\displaystyle{\sum_{n=1}^{N}}\{x_{n}\ln{\mu}+(1-x_{n})\ln{(1-\mu)}\}\)
求其最大值,得到 \(\mu_{ML}=\frac{1}{N}\displaystyle{\sum_{n=1}^{N}}x_{n}\) 这就是在该观测集上伯努利分布的最大似然估计。等价于经验风险最小化
最大似然估计也有缺陷,假如观测集合太少,过拟合就极易发生(比如投掷硬币三次若都是头像朝上的话,最大似然估计将直接判断向上的概率为\(100\%\),这显然不对)。 我们可以通过引入先验 \(\mu\) 来避免这种情况。变成了最大后验估计即结构风险最小化——详见后面的贝塔分布
- 二项分布(binomial distribution)
伯努利分布中观测集合 \(\mathcal{D}\) 是给定的,当我们仅知道 \(x=1\) 的观测次数是 \(m\) 时,我们能推导出二项分布:
\(Bin(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m}=\frac{N!}{(N-m)!m!}\mu^{m}(1-\mu)^{N-m}\)
这是关于某事件发生多少次的概率。二项分布的期望与方差满足:
\(\mathbb{E}[m] = \displaystyle{\sum_{m=0}}mBin(m|N,\mu)=N\mu\)
\(var[m] = \displaystyle{\sum_{m=0}}(m-\mathbb{E}[m])^{2}Bin(m|N,\mu)=N\mu(1-\mu)\)
- 贝塔分布(beta distribution)
这一节考虑怎么引入先验信息到二进制分布中,并介绍共轭先验(conjugacy prior)
贝塔分布是作为先验概率分布被引入的,它由两个超参数 \(a, b\) 控制。
\(Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)
\(\Gamma(x)\equiv \int_{0}^{\infty}u^{x-1}e^{-u}du\)
其中的系数保证了贝塔分布的归一性 \(\int_{0}^{\infty}Beta(\mu|a,b)d\mu=1\). 贝塔分布的期望与方差满足:
\(\mathbb{E}[\mu] = \frac{a}{a+b}\)
\(var[m] = \frac{ab}{(a+b)^{2}(a+b+1)}\)
待续