用一个模型来做预测,预测误差的来源主要有两部分,分别为 bias 与 variance ,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于我们诊断模型的错误,且避免 over-fitting 或者 under-fitting.
数学解释
对于观测数据 X 来预测其类别 Y ,假设两者服从 Y = f(X) + \varepsilon ,\varepsilon 在这里是一个误差项,其服从的N(0,\delta_{\varepsilon }^2).
接下来建立一个近似 f(X) 的模型 \hat{f}(X) 来拟合数据 X ,给定一个点 x , y = f(x) +\varepsilon ,若采用均方损失,模型 \hat{f}(X) 在点 x 的整体预测误差为:
\[Err(x) = E[(y - \hat{f}(x))^2]\]
这个式子其实等价于:
\[Err(x) = E[(y - \hat{f}(x))^2]\]
具体的计算过程如下
\begin{aligned}
Err(x) &= E[(y - \hat{f}^2(x))] \\
&= E[y^2 - 2y \hat{f}(x) + \hat{f}^2(x)] \\
&= E[(f(x)+ \varepsilon )^2 - 2(f(x)+ \varepsilon )\hat{f}(x) + \hat{f}^2(x)] \\
&= E[f^2(x)+2f(x) \varepsilon +\varepsilon ^2 - 2f(x)\hat{f}(x) -2\hat{f}(x)\varepsilon + \hat{f}^2(x)] \\
&= E[f^2(x)- 2f(x)\hat{f}(x) + \hat{f}^2(x)] + E[2(f(x)-2\hat{f}(x)) \varepsilon +\varepsilon ^2] \\
&= f^2(x)- 2f(x)E\hat{f}(x) + E[\hat{f}^2(x)] + \delta _e^2 \\
&= \left \{ [E\hat{f}(x)]^2 - 2f(x)E\hat{f}(x) + f^2(x) \right \} +\left \{ E[\hat{f}^2(x)] -2[E\hat{f}(x)]^2 + [E\hat{f}(x)]^2 \right \} + \delta _e^2 \\
&= [E\hat{f}(x) - f(x)]^2 + E[\hat{f}(x)-E\hat{f}(x)]^2 + \delta _e^2
\end{aligned}