为什么样本方差除以(n-1)而不是n ?

  不记得第几次看见样本方差的公式,突然好奇为什么要除以(n-1)而不是n呢?看见一篇文章从定义上和无偏估计推导上讲的很清楚https://blog.csdn.net/fuming2021118535/article/details/51290320,书上看见从自由度上作的解释,在此记录一下。

  自由度

  自由度是统计学中一个经常见到的重要概念。指计算某一统计量时,取值不受限制的变量个数。

  对于样本方差来说,自由度为n-1。S2的表达式中为n个量的平方和,为何自由度只有n-1?因为x1-, ... , x2-这n个量并不能自由变化,而是受到一个约束,即,这使它的自由度少了一个,在样本方差S2的公式中分母上是n-1,就是因为当给定均值时,x1, x2, ..., xn这n个数据中,前n-1个数据都可以自由取值,而第n个数据受到全部数据的平均值的约束,不能自由取值。第n个数据可由公式求得,因此,S2的自由度是n-1。所以,所谓“自由度”就是指可以自由取值的数据的个数,或者指不受任何约束,可以自由变动的变量的个数。

  还可以对自由度这个概念赋予另一种解释,即一共有n个数据,有n个自由度,用S2估计总体方差σ2,自由度本应为n,但总体均值μ也未知,用去估计,用掉了一个自由度,故只剩n-1个自由度。

  用矩阵秩的概念也可以解释自由度。自由度是对随机变量的二次型(可称为二次统计量)而言的,自由度就是二次型矩阵的秩。但用矩阵的秩来判断统计量的自由度比较困难,一般采用直观方法来做判断,即由线性代数知识可知,一个二次型的秩为它所含变量个数减去变量间独立线性约束条件的个数,从而便可得到统计量的自由度。关于样本方差S2的自由度,就是因为含有n个变量,但n个变量有一个线性约束条件,故S2的自由度为n-1。

  回归分析中,回归方程的显著性检验用到残差平方和。确定残差平方和的自由度的一般方法是:观测值的个数n减去必须估计出的参数的个数就是自由度。例如p元线性回归方程的残差平方和的自由度就是n-p-1,因为回归方程中有p+1个待估参数。

原文地址:https://www.cnblogs.com/datamining-bio/p/9267759.html

时间: 2024-10-02 19:13:39

为什么样本方差除以(n-1)而不是n ?的相关文章

初识PCA数据降维

PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵. 一.预备知识 1.1 协方差分析 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来.网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧. 用matlab计算这个例子 z=[1,2;3,6;4,2;5,2] cov(z) ans = 2.9167 -0.3333 -0.3333 4.0000 可以看出,matlab计算协方差过程

无偏估计

所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值. 在某些场合下,无偏性的要求是有实际意义的.例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平.这是因为从长期来看,这种估计方法是无偏的.比如这一次所估计出来的次品率实际上偏高,厂商吃亏了:但下一次的估计很可能偏低,厂商的损失就可以补回来.由于双方的交往会长期多次发生,这时采用无偏估计,总的来说可以达到互不吃

什么是无偏估计?

所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值. 在某些场合下,无偏性的要求是有实际意义的.例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平.这是因为从长期来看,这种估计方法是无偏的.比如这一次所估计出来的次品率实际上偏高,厂商吃亏了:但下一次的估计很可能偏低,厂商的损失就可以补回来.由于双方的交往会长期多次发生,这时采用无偏估计,总的来说可以达到互不吃

CSS布局奇淫技巧之--各种居中

居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明外,都是兼容IE6+.谷歌.火狐等主流浏览器的. 先来说几种简单的.人畜无害的居中方法 1. 把margin设为auto 具体来说就是把要居中的元素的margin-left和margin-right都设为auto,此方法只能进行水平的居中,且对浮动元素或绝对定位元素无效. 2.使用 text-ali

A tutorial on Principal Components Analysis | 主成分分析(PCA)教程

A tutorial on Principal Components Analysis 原著:Lindsay I Smith, A tutorial on Principal Components Analysis, February 26, 2002. 翻译:houchaoqun.时间:2017/01/18.出处:http://blog.csdn.net/houchaoqun_xmu  |  http://blog.csdn.net/Houchaoqun_XMU/article/details

CSS布局之--各种居中

CSS布局奇淫技巧之--各种居中 居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明外,都是兼容IE6+.谷歌.火狐等主流浏览器的. 先来说几种简单的.人畜无害的居中方法 1. 把margin设为auto 具体来说就是把要居中的元素的margin-left和margin-right都设为auto,此方法只能进行水平的居中,且对浮动元素或绝对定位元素

购书最便宜的方案

#include <iostream> using namespace std; void LowestPrice(int n){ double lowprice = 0; int p ,q; p = n/10; q = n%10; switch(q){ case 0:lowprice = p*20;break; case 1:lowprice = p*20+8;break; case 2:lowprice = p*20+8*2*0.95;break; case 3:lowprice = p*

CC2541蓝牙学习——ADC

CC2541的ADC支持多达14位的模拟数字转换与高达12位的有效位数.它包括一个模拟多路转换器,具有多达8个各自可独立配置的通道,一个参考电压发生器.转换结果通过DMA写入存储器.还具有若干运行模式. ADC主要特性如下: 可选的抽取率,设置了7~12位的分辨率: 8个独立输入通道,可接受单端或差分信号: 参考电压可选为内部,外部单端,外部差分,或AVDD5: 产生中断请求: 转换结束时的DMA触发: 温度传感器输入: 电池测量功能. 图1 P0引脚上的信号可以作为ADC输入来使用.在下面,这

机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size

机器学习算法中如何选取超参数:学习速率.正则项系数.minibatch size 本文是<Neural networks and deep learning>概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值.(本文会不断补充) 学习速率(learning rate,η) 运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η.下面讨论在训练时选取η的策略. 固定的学习速率.如果学习速率太小,则会使收敛过慢,如果学习速率太大,则会导致代价