样本方差的无偏估计与(n-1)的由来

原文出处: http://blog.sina.com.cn/s/blog_c96053d60101n24f.html

在PCA算法中用到了方差,协方差矩阵,其中方差公式为,协方差矩阵公式为,当时不明白为什么除的不是m,而是m-1,那么想要知道为何,下面就是你想要的答案。

假设X为独立同分布的一组随机变量,总体为M,随机抽取N个随机变量构成一个样本,是总体的均值和方差, 是常数。是对样本的均值和方差,由于样本是随机抽取的,也是随机的。

这里需要注意的是,由于样本是随机的,所以X1,X2,X3...都是随机的。上式中可以看出,样本均值这个变量的期望就是总体的均值,因此可以说均值是无偏的。

接下来看样本方差的均值:

根据方差公式,可以得到:

因此:

这里可以看出样本方差的期望并不是无偏的,要无偏估计,应该再乘上一个系数:

n-1既为自由度,就是说,在一个容量为n的样本里,当确定了n-1个变量以后,第n个变量就确定了,因为样本均值是无偏的。
    协方差除以m-1原理和方差一样,因为方差为协方差的特殊情况。

这个知乎上的讨论更加透彻:

http://www.zhihu.com/question/20099757

时间: 2024-09-28 21:56:32

样本方差的无偏估计与(n-1)的由来的相关文章

【转】总体样本方差的无偏估计样本方差为什么除以n-1

原文链接:https://blog.csdn.net/qq_16587307/article/details/81328773 最近学习又接触到了样本方差估计,我重新想到了这个问题,很幸运这篇文章写的很好,解决了之前似懂非懂的困扰 证明过程(不是推导) 为什么? 当样本均值已知时的证明: 原文地址:https://www.cnblogs.com/exciting/p/11722803.html

协方差矩阵的几何解释

A geometric interpretation of the covariance matrix http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/ 译文:http://demo.netfoucs.com/u010182633/article/details/45937051 介绍 在本文中,我们通过探索线性变换与所得数据协方差之间的关系提供协方差矩阵一个直观的几何解释.大部分教科书基

关于样本方差以及样本协方差的一点思考

本篇文章主要讨论样本方差和样本协方差除以n-1问题,其他暂且不做过多赘述. 方差的维基百科定义:一个随机变量的方差描述的是它的离散程度,也就是该变量到其期望值的距离. 计算公式: 样本方差:样本方差是依据所给样本对方差做出的一个无偏估计.用样本去推测整体情况. 计算公式: 其中n为样本数. 等等,为什么样本方差的计算公式不是n而是n-1呢,不应该是求平均值吗,你看,假设一对数据的总体样本为:,然后每个样本不就是,也就是,这样似乎才是符合数学推理的吧?但是为什么那么多统计学家给出的却要除以n-1呢

为什么样本方差(sample variance)的分母是 n-1?

为什么样本方差(sample variance)的分母是 n-1? (補充一句哦,題主問的方差 estimator 通常用 moments 方法估計.如果用的是 ML 方法,請不要多想不是你們想的那樣, 方差的 estimator 的期望一樣是有 bias 的,有興趣的同學可以自己用正態分佈算算看.) 本來,按照定義,方差的 estimator 應該是這個:但,這個 estimator 有 bias,因為:而 (n-1)/n * σ² != σ² ,所以,為了避免使用有 bias 的 estim

无偏估计与方差

在阅读 The Elements of Statistical Learning 第三章的时候,有一个式子我没有弄明白:设 $Y = X\beta + \epsilon$,其中 $\epsilon$ 的均值为 0,方差为 $\sigma^2$:再设 $X$ 是 $N \times (p+1)$ 的矩阵(每条训练样本含常数项 1),那么对 $\sigma^2$ 的无偏估计是 $$\hat{\sigma}^2 = \frac{1}{N-p-1}\sum_{i=1}^N(y_i-\hat{y}_i)^

为什么样本方差自由度(分母)为n-1

一.概念.条件及目的 1.概念 要理解样本方差的自由度为什么是n-1,得先理解自由度的概念: 自由度,是指附加给独立的观测值的约束或限制的个数,即一组数据中可以自由取值的个数. 2.成立条件 所谓自由取值,是指抽样时选取样本,也就是说:只有当以样本的统计量来估计总体的参数时才有自由度的概念,直接统计总体参数时是没有自由度概念的. 3.目的 自由度概念,是为了在通过样本进行参数估计时,剔除系统误差,实现无偏估计. 设A'=g(X1,X2,...,Xn)是未知参数A的一个点估计量,若A'满足E(A'

无偏估计

所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值. 在某些场合下,无偏性的要求是有实际意义的.例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平.这是因为从长期来看,这种估计方法是无偏的.比如这一次所估计出来的次品率实际上偏高,厂商吃亏了:但下一次的估计很可能偏低,厂商的损失就可以补回来.由于双方的交往会长期多次发生,这时采用无偏估计,总的来说可以达到互不吃

什么是无偏估计?

所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值. 在某些场合下,无偏性的要求是有实际意义的.例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平.这是因为从长期来看,这种估计方法是无偏的.比如这一次所估计出来的次品率实际上偏高,厂商吃亏了:但下一次的估计很可能偏低,厂商的损失就可以补回来.由于双方的交往会长期多次发生,这时采用无偏估计,总的来说可以达到互不吃

为什么样本方差除以(n-1)而不是n ?

不记得第几次看见样本方差的公式,突然好奇为什么要除以(n-1)而不是n呢?看见一篇文章从定义上和无偏估计推导上讲的很清楚https://blog.csdn.net/fuming2021118535/article/details/51290320,书上看见从自由度上作的解释,在此记录一下. 自由度 自由度是统计学中一个经常见到的重要概念.指计算某一统计量时,取值不受限制的变量个数. 对于样本方差来说,自由度为n-1.S2的表达式中为n个量的平方和,为何自由度只有n-1?因为x1-, ... ,