无偏估计与方差

在阅读 The Elements of Statistical Learning 第三章的时候,有一个式子我没有弄明白:设 $Y = X\beta + \epsilon$,其中 $\epsilon$ 的均值为 0,方差为 $\sigma^2$;再设 $X$ 是 $N \times (p+1)$ 的矩阵(每条训练样本含常数项 1),那么对 $\sigma^2$ 的无偏估计是 $$\hat{\sigma}^2 = \frac{1}{N-p-1}\sum_{i=1}^N(y_i-\hat{y}_i)^2$$ 其中 $\hat{Y} = X\hat{\beta}$,$\hat{\beta}$ 是用 least square 得到的参数。

这个式子最奇怪的就是前面的系数 $1/(N-p-1)$。我们一般计算方差的时候都是以 $1/N$ 作为系数的,样本方差是以 $1/(N-1)$ 作为系数的。那么样本方差的 $1/(N-1)$ 和上面那个式子的 $1/(N-p-1)$ 是怎么来的呢?

我们先来看一下在一般情况下计算方差时,为什么以 $1/N$ 为系数的估计是有偏的。设 $x_1, x_2, \dots, x_n$ 是我们观察到的数据,它们的均值 $\bar{x} = (x_1 + x_2 + \dots + x_n)/n$,我们估计的方差是 $$\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$ 设数据真实的期望为 $\mu$,真实的方差为 $\sigma^2$,则我们估计的方差的期望为 $$\mathbb{E}(\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2) \\ = \mathbb{E}(\frac{1}{n}\sum_{i=1}^n((x_i-\mu)-(\bar{x}-\mu))^2) \\ = \mathbb{E}(\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 - \frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^n(x_i-\mu) + (\bar{x}-\mu)^2)$$ 注意到 $$\sum_{i=1}^n(x_i-\mu) = n\bar{x}-n\mu$$ 所以 $$\mathbb{E}(\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 - \frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^n(x_i-\mu) + (\bar{x}-\mu)^2) \\ = \mathbb{E}(\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2  - (\bar{x}-\mu)^2) \\ = \sigma^2 - \mathbb{E}((\bar{x}-\mu)^2)$$ 注意到 $$\mathbb{E}(\bar{x}) = \mu$$ 展开第二项有 $$\mathbb{E}((\bar{x}-\mu)^2) = \mathbb{E}(\bar{x}^2) - 2\mu\mathbb{E}(\bar{x}) + \mu^2 \\ = \mathbb{E}(\bar{x}^2) - \mathbb{E}^2(\bar{x}) = \text{Var}(\bar{x})$$ $\bar{x}$ 是 $n$ 个相互独立且方差均为 $\sigma^2$ 的变量的均值,所以 $$\text{Var}(\bar{x}) = \frac{\sigma^2}{n}$$ 所以 $$\mathbb{E}(\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2) = \sigma^2 - \mathbb{E}((\bar{x}-\mu)^2) \\ = \frac{n-1}{n}\sigma^2 \ne \sigma^2$$ 这就是以 $1/N$ 为系数的方差是有偏估计的原因。相应的 $$\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2) \\ = \frac{n}{n-1}\mathbb{E}(\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2) \\ = \frac{n}{n-1}\frac{n-1}{n}\sigma^2 = \sigma^2$$ 所以以 $1/(N-1)$ 为系数的方差才是无偏估计。

回到最开始的问题,为了说明 $\hat{\sigma}^2$ 是对 $\sigma^2$ 的无偏估计,我们需要证明 $\mathbb{E}(\hat{\sigma}^2) = \sigma^2$。这里设 $\epsilon$ 是一个协方差矩阵为 $\sigma^2I$ 的向量。$$\mathbb{E}(\sum_{i=1}^N(y_i-\hat{y}_i)^2) = \mathbb{E}(|Y-X\hat{\beta}|^2) \\ = \mathbb{E}(|X\beta + \epsilon - X(X^TX)^{-1}X^T(X\beta+\epsilon)|^2) \\ = \mathbb{E}(|X\beta + \epsilon - X\beta - X(X^TX)^{-1}X^T\epsilon|^2) \\ = \mathbb{E}(|(I-X(X^TX)^{-1}X^T)\epsilon|^2)$$ 令 $X(X^TX)^{-1}X^T = H$,容易验证 $H^T = H^2 = H$。我们有 $$\mathbb{E}(|(I-X(X^TX)^{-1}X^T)\epsilon|^2) \\ = \mathbb{E}(\epsilon^T(I-H)^T(I-H)\epsilon) \\ = \mathbb{E}(\epsilon^T(I-H)\epsilon) = \sum_{i=1}^N\sum_{j=1}^N(I-H)_{ij}\mathbb{E}(\epsilon_i\epsilon_j)$$ 注意到除非 $i = j$,否则 $\epsilon_i$ 与 $\epsilon_j$ 互相独立,且 $\mathbb{E}(\epsilon) = 0$,所以 $$\sum_{i=1}^N\sum_{j=1}^N(I-H)_{ij}\mathbb{E}(\epsilon_i\epsilon_j) \\ = \sum_{i=1}^N(I-H)_{ii}(\mathbb{E}(\epsilon_i^2) - \mathbb{E}^2(\epsilon_i)) \\ = \sigma^2(N-\text{tr}(H)) \\ = \sigma^2(N-\text{tr}(X(X^TX)^{-1}X^T)) \\ = \sigma^2(N-\text{tr}(X^TX(X^TX)^{-1})) = (N-p-1)\sigma^2$$ 所以 $$\mathbb{E}(\hat{\sigma}^2) = \frac{1}{N-p-1}\mathbb{E}(\sum_{i=1}^N(y_i-\hat{y}_i)^2) = \sigma^2$$

时间: 2024-10-04 16:56:51

无偏估计与方差的相关文章

估计理论—从经典到贝叶斯

本文内容主要参考Steven M.Kay的<统计信号处理基础——估计与检测理论>,该书中译本分类为“国外电子与通信教材系列”,应该会有一定局限性.本文是我看过该书后的一点点总结. 1.从最大似然估计看经典估计理论 最大似然估计(Maximum Likelihood Estimation,MLE)是一种很经典的估计方法.顾名思义,就是最大化似然函数的一种估计方法.似然函数(Likelihood function),即(其中$\theta$代表估计量,$X$代表观察值). 对于不同的问题,似然函数

样本方差的无偏估计与(n-1)的由来

原文出处: http://blog.sina.com.cn/s/blog_c96053d60101n24f.html 在PCA算法中用到了方差,协方差矩阵,其中方差公式为,协方差矩阵公式为,当时不明白为什么除的不是m,而是m-1,那么想要知道为何,下面就是你想要的答案. 假设X为独立同分布的一组随机变量,总体为M,随机抽取N个随机变量构成一个样本,和是总体的均值和方差, 是常数.是对样本的均值和方差,由于样本是随机抽取的,也是随机的. 这里需要注意的是,由于样本是随机的,所以X1,X2,X3..

方差、协方差、协方差矩阵的概念及意义

期望 离散型随机变量的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望(设级数绝对收敛),记为 E(x).随机变量最基本的数学特征之一.它反映随机变量平均取值的大小.又称期望或均值. 若随机变量X的分布函数F(x)可表示成一个非负可积函数f(x)的积分,则称X为连续性随机变量,f(x)称为X的概率密度函数(分布密度函数). 方差 方差是各个数据与平均数之差的平方的平均数.在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间

标准差、方差、协方差的简单说明

在一个样本中,样本的无偏估计的均值.标准差和方差如下: 对于单个变量,它的协方差可以表示为: 其实它即是方差,所以呢,当只有一个变量时,方差是协方差的一种特殊情况: 举例:有一个变量 X的样本为:0.2, 0.3,0.4,0.3,0.5:求自身的协方差(即方差) 对于两个变量,协方差可以表示为: 它表示了两个变量的相关性:通俗一点说,当X变大时,Y是否会变大 ,如果正相关,则协方差大于0,如果不负相关,则协方差小于0: 举例:有两个变量 ,X的样本为:0.2, 0.3,0.4,0.3,0.5:y

无偏估计

所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值. 在某些场合下,无偏性的要求是有实际意义的.例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平.这是因为从长期来看,这种估计方法是无偏的.比如这一次所估计出来的次品率实际上偏高,厂商吃亏了:但下一次的估计很可能偏低,厂商的损失就可以补回来.由于双方的交往会长期多次发生,这时采用无偏估计,总的来说可以达到互不吃

什么是无偏估计?

所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值. 在某些场合下,无偏性的要求是有实际意义的.例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平.这是因为从长期来看,这种估计方法是无偏的.比如这一次所估计出来的次品率实际上偏高,厂商吃亏了:但下一次的估计很可能偏低,厂商的损失就可以补回来.由于双方的交往会长期多次发生,这时采用无偏估计,总的来说可以达到互不吃

numpy中的方差、协方差、相关系数

一.np.var 数学上学过方差: $$D(X)=\sum_{i\in [0,n)} ({x-\bar{x}})^2 $$ np.var实际上是均方差. 函数原型:numpy.var(a, axis=None, dtype=None, out=None, ddof=0, keepdims=<class numpy._globals._NoValue>) 计算张量a在axis轴上的方差 a:一个ndarray,不一定是一维 axis:可取值为None,int,int元组.当取值为None时,会把

使用R语言计算均值,方差等

R语言对于数值计算很方便,最近用到了计算方差,标准差的功能,特记录. 数据准备 height <- c(6.00, 5.92, 5.58, 5.92) 1 计算均值 mean(height) [1] 5.855 2 计算中位数 median(height) [1] 5.92 3 计算标准差 sd(height) [1] 0.1871719 4 计算方差 var(height) [1] 0.03503333 5 计算两个变量之间的相关系数 cor(height,log(height)) [1] 0

方差variance, 协方差covariance, 协方差矩阵covariance matrix

参考: 如何通俗易懂地解释「协方差」与「相关系数」的概念?(非常通俗易懂) 浅谈协方差矩阵 方差(variance) 集合中各个数据与平均数之差的平方的平均数.在概率论与数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度.  方差越大,数据的离散程度就越大. 协方差(covariance) 协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同.如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么