极大似然估计(MLE)提供了一种 给定观察数据来评估模型参数的方法,MLE 的问题形式是这样的,给定来自随机变量 $X$ 的数据集合 $\left \{ x_1,x_2 ,..., x_N \right \}$ , $X$ 的概率密度函数 $f(x|\theta)$ ,其中 $\theta$ 是为概率密度的未知参数,现在即可根据 MLE 求参数 $\theta$ .
其实是 MLE 一种经验风险最小化(emperical risk minimization,ERM)的方法,在机器学习中,ERM 即在给定的有限数据集上使求得模型的损失最小,写成公式有:
\[\min_{f \in \mathbb{F} } \frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i))\]
其中 $ \mathbb{F} $ 是假设空间,$L(y_i,f(x_i))$为人工定义的损失函数, $f(x)$ 是假设函数,也即所求的模型,可见当样本容量足够大时,ERM 会保证很好的解,但是样本容量 N 很小时,ERM 可能有 over-fitting 的现象。对 MLE 来说,当模型是条件概率,损失函数是对数损失函数时,其与 ERM 是等价的,求证如下:对单个样本 $(x_i,y_i)$ ,当模型为 $f(x_i) = p(x_i|\theta)$ 时,对数损失函数为 $L(y_i,f(x_i)) = -logf(x_i) = -log \ p(x_i|\theta)$ ,此时对于所有样本数据 $\left \{ x_1,x_2 ,..., x_N \right \}$ 有:
\[\min_{\theta } -\frac{1}{N} \sum_{i=1}^{N}log \ p(x_i|\theta)\Leftrightarrow \max_{\theta } \frac{1}{N} \sum_{i=1}^{N}log \ p(x_i|\theta)\]
以上便为 MLE 的log似然对数,有无 $\frac{1}{N}$ 对结果无影响。接下来给出 MLE 的一般形式:对于数据 $\left \{ x_1,x_2 ,..., x_N \right \}$ ,密度函数为 $f(x|\theta)$ , 则数据集的联合密度函数为 $f(x_1,x_2,...,x_N|\theta) = f(x_1|\theta)f(x_2|\theta)...f(x_N|\theta) = \prod_{i=1}^{N}f(x_i|\theta)$ ,要求其最大值,可先两边同时取 log ,然后求 log 函数的极大值即可,即
\[\max_{\theta}L(\theta)= \max_{\theta}log(\prod_{i=1}^{N}f(x_i|\theta)) = \max_{\theta}\sum_{i=1}^{N}log f(x_i|\theta) \]
显然对 ERM 来说数据量越多
即在已知数据概率密度的情况下,
Jensen不等式
随机变量的期望
随机变量函数的期望
最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计。