统计学中的自由度

数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有“部分推断整体”的特征。

数学中的自由度一般是指能够自由取值的变量个数。数理统计中的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,自由度通常记为df。数理统计上的这个定义可以从如下几个方面来理解:

第一,“统计量”(如样本数据的平均数X、样本数据的标准差)是研究者通过调查样本的数据人为地计算出来的,而“参数”(如总体均值μ、总体标准差δ)是被调查的总体所客观存在的,这是两者的区别。在统计学的理论层面上,要求或者假定统计量是参数的无偏估计,认为二者是相等的(在实际研究中,由于抽样的偏差,可能导致两者不相等,但对于这种情况,研究者是无法知道的,知道就没有抽样调查的必要了)。在理论假设下,统计量也就和参数一样被看作是客观的、确定的。

第二,既然在理论上统计量被要求是确定的,那么在实际层面上,计算统计量的那组数据就 不是完全自由的。这一点很重要,因为自由度中“自由”的含义就是相对这个“确定”条件而言的。正是统计量的这种“确定性”限制了与之相关的一组数据的自由度,也就是说,一组数据不是可以完全自由取值的,它必须支持“统计量与总体参数相等”的理论假设。这就是自由度存在的理由。

有必要举例来进一步说明“独立或能自由变化的数据”的含义。在心理、社会等领域的测量或者调查过程中,研究者设置了一些变量(如智商、收入等),这些变量是随机变量。所谓随机变量是指,在调查总体中,变量的取值范围及其所对应的频次(两者合起来称为变量的分布)是确定的,但在一次具体的抽样调查中,变量的取值及其所对应的频次则是不确定的,但在大样本的抽样调查中,变量的分布又是能体现总体的特征和规律的。

例如:研究者在调查某个城市在岗职女工的平均收入时,从总体40000万人中,研究者随机抽取了200人进行调查。在这个例子中,总体40000个在岗女工的收入的平均数是总体参数,是客观的、确定的,尽管研究者不知道。通过随机抽样和问卷调查,研究者获得了200人的收入的数据。运用这组数据可以算出样本的平均数,它是统计量。由于在理论上要求统计量与参数相等,所以这200个数据中只有199个数据可以“自由”变动,所以,这组数据在求平均数这个统计量时的自由度就是:K=200-1=199。

第三,在上面的例子中,研究者只抽了一个200人的样本,而在实际层面,这200人的收入是确定的,因为每个被调查者只有一个确定的收入。既然这样,“199个数据可以自由变动”是什么意思呢?

这需要回到理论上去回答。在理论上,从20000人中随机抽取200人有种抽取方法,也就是说,在理论上研究者可以得到个不同的、样本容量均为200人的样本,这个数据量是很大的(没有必要确切知道它的值)。这样,在理论上就存在很多组调查数据(虽然研究者确实只调查了一个200人的样本,也只获得了一组数据),每组都有200个数据。每组数据在理论上都有对应的统计量,正是这些统计量的分布,构成了统计学中所说的抽样分布,它是基础统计学的核心内容。所以,仅仅在理论上,这200个数据中的199个数据是可以随不同样本而变化的、自由的。当然,话说回来,这种自由并非是绝对的,它们也只能在总体的取值范围内变动,例如,关于“收入”这个变量的取值就不可能为负值。

众所周知,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢?它到底是什么含意?

在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少 自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df=n-k(df自由度,n样本个数,k约束条件个数),n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。

第四,自由度是谁的?从前面的分析中可以知道,自由度产生于这样的背景下:运用一组数据来求“统计量”。离开“一组数据”就不可能有“统计量”,不计算“统计量”,“一组数据”就失去了科学的价值。所以,“自由度”应该是“统计量”和“一组数据”所共同拥有的。当然,为了方便,我们说“统计量的自由度”或者“一组数据的自由度”也都是可以接受的。

第五,统计学上的自由度包括两方面的内容:

首先,在估计总体的平均数时,由于样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。

在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。例如,有一个有4个数据(n=4)的样本, 其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则m≠5。因而这里的自由度υ=n-1=4-1=3。推而广之,任何统计量的自由度υ=n-限制条件的个数。

其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。

在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。

上述从不同角度对自由度的概念与定义进行了阐述,我们认为,在统计学上,自由度是建立在统计量之上的概念,它是统计量的数学特征。至此,我们可以给出数理统计中自由度的科学定义:自由度是指在一组样本数据中,能够自由取值且不违反给定约束条件的样本数值的个数。这样,我们就较科学地将实际样本容量和自由度区别开来。

下面将进一步举例说明自由度在不同方面的应用。

一、样本方差的自由度

许多教科书在列出样本方差的计算公式时都没有说分子n-1(n为样本容量)就是自由度,也很少解释清楚为什么是除以n-1而不是n。假设一个容量为10的样本,如果没有其他关于该样本的信息或约束的话,任意从总体中抽取的10个观察值都可以形成这样的样本。也就是说,这10个观察值可以任意地被从总体中抽取的其他观察值所取代。当我们想要计算样本方差时,必须先算出样本均值,设=35。此时,这10个观察值就不能任意地被总体中抽取的其他观察值所取代了。因为n=350,10个观察值的总和必须等于350。这样一来,样本中只有9个观察值可以随意改变,因为如果任意9个观察值确定了,第10个观察值也被这9个值确定了。因此在计算样本方差时自由度等于9。有效样本容量被减少为n-1,在此基础上,我们可以很好地理解为什么作为均方差的样本方差计算时,要用自由度来平均而非用n平均。这也说明了如果从样本数据中估计了一个总体参数,自由度就会减少一个。因为样本方差的自由度为n-1,所以在比较两个独立总体的均值大小的t检验中,合并方差的自由度等于n1+n2-2=(n1-1)+(n2-1);在比较两个独立总体的方差大小的F检验中,F统计量的自由度为(n1-1,n2-1),其中n1,n2分别为两个样本的容量。

二、独立性检验中的自由度

在独立性的卡方检验中,列联表是必不可少的。 我们运用列联表来说明其中自由度的思想。见表1,一张2×3的列联表,它的行和与列和已经给定了。如果不能给出更多的频数,这张表是有空缺的。如果填入一个频数,如(n2,m2)=45,另一个频数(n1,m2)就可以被确定(n1,m2)=45。倘若再给出一个频数,那么整个列联表就填列完整了。如令(n1,m1)=15,则(n2,m1)=5,(n2,m3)=20,(n1,m3)=20。对于2行3列的列联表,只要给出2个独立的必要的信息,我们就可以确定整张表的信息内容。也就是说列联表有(r-1)(c-1)=(2-1)(3-1)=2个自由度。可以想象,一张r行c列的列联表,在各行和与列和给定的情况下,我们只要填上任意(r-1)行(c-1)列的频数,表中其他的频数也会随之确定下来,所以列联表有(r-1)(c-1)个自由度。

总之,数理统计中的自由度对于整个统计学而言是一个很重要的概念,它在抽样分布和假设检验中的作用尤其突出。统计量的自由度和检验该统计量是否显著的临界值之间的对应关系,从而为判断是否显著提供了一定的标准。全面地认识理解数理统计中自由度的含义和应用方向,对理解和在实际中应用数理统计学具有至关重要的作用。

时间: 2024-12-17 14:29:39

统计学中的自由度的相关文章

统计学中z分布、t分布、F分布及χ^2分布

Z就是正态分布,X^2分布是一个正态分布的平方,t分布是一个正态分布除以(一个X^2分布除以它的自由度然后开根号),F分布是两个卡方分布分布除以他们各自的自由度再相除比如X是一个Z分布,Y(n)=X1^2+X2^2+--+Xn^2,这里每个Xn都是一个Z分布,t(n)=X/根号(Y/n),F(m,n)=(Y1/m)/(Y2/N)各个分布的应用如下:t分布应用在估计呈正态分布的母群体之平均数. t分布是小样本分布,t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体

统计学中比较重要的分布及python中使用方法

比较重要的四种分布:正态分布.卡方分布.F分布.t分布 卡方分布概率密度曲线 t分布概率密度曲线 F分布概率密度曲线 参考资料: 统计学中四个概率分布 重要抽样分布 原文地址:https://www.cnblogs.com/ironan-liu/p/12122769.html

【统计学中的普适智慧】假设检验

『一次抽取样本,如果原假设条件下的小概率事件发生,则否定原假设』 一个简单的例子: 厂商提出产品合格率为99%,在一次抽样中,如果被抽产品不合格,那我们当然不能接受他的说法,因为1%概率的事件发生了. 生活中面对复杂的事物,我们难以在第一眼发觉到其中的规律,但这并不妨碍我们对其进行探索.不断提出合理假设并加以验证能让我们越来越接近规律.数据挖掘就是概率论和统计学的实际应用. 我认为在信息时代,我们有必要学习好概率论和数理统计,利用其中的理论思想从数据中发现价值. 相信很多非统计系的本科生对于概统

统计学中相关数学符号、希腊字母的标准读法

为了方便口语化环境下与人分析讨论统计学,特别查找了以下符号的标准读法,一来备用,而来也方便初学者规范化读音. 以下为读法表,其中的TEX的字体一般出现在科学著作中. TeX希腊字母 名字 TeX HTML   名字 TeX HTML   名字 TeX HTML   名字 TeX HTML Alpha Αα   Beta Ββ   Gamma Γγ   Delta Δδ Epsilon Ε?ε Digamma ?? Stigma ??ς Zeta Ζζ Eta Ηη Theta Θθϑ Iota

统计学中的P值与显著性的意义

统计学意义(p值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法.专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有总体代表性的犯错概率.如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的.即假设总体中任意变量间均无关联(变量之间的独立性成立),我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果.(这并不是说如果变量间存在关联,我们

语言统计学中的几个定律,可作为设计检索的参考

30定律:出现频率最高的30个词占全文本总词数的30% 如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30% Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数 freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N 那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推 heaps定律,在自然语料库中不重

统计学中的频率学派与贝叶斯学派

对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西.这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题. 贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用.自20世纪初数理统计学大发展开始,一直到20世纪中叶,频率学派一直占据主导地位,当时诸多大咖如Fisher.K.Pearson等都属于频率学派,而从20世纪中叶以后,贝叶斯学派迅速发展壮大起来,可与频率学

如何理解机器学习/统计学中的各种范数norm | L1 | L2 | 使用哪种regularization方法?

参考: L1 Norm Regularization and Sparsity Explained for Dummies 专为小白解释的文章,文笔十分之幽默 why does a small L1 norm give a sparse solution? why does a sparse solution avoid over-fitting? what does regularization do really? 减少feature的数量可以防止over fitting,尤其是在特征比样本

统计学常用概念:T检验、F检验、卡方检验、P值、自由度

1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果.倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很 少.很罕有的情况下才出现:那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够