【数理统计基础】 02 - 统计量和三大分布

1. 样本和统计量

1.1 样本和统计量

  数理统计讨论的问题不一定都是随机现象,比如人口信息的统计、具体数据的测量,它们的结果都是确定的。但实际问题的操作并不是数学所关心的,剥离问题的外壳,这些问题都可以用随机现象来描述,比如人口信息和测量误差都可以用一个正态分布来近似。建立统计的概率模型,正是数理统计区别于广义统计学的关键,为模型定义统一、明确的对象也是任何数学分支的起点。

  既然这样,数理统计的研究对象其实还是随机变量,具体问题中所有可能的取值被称为全体,而每一个值称为个体。不同于概率论中研究分布的性质,统计中的分布信息往往是未知的,这样的随机变量习惯写作\(X\)。为了得到\(X\)的更多信息,需要采集它的观察值\(X_1,X_2,\cdots,X_n\),它们称为样本。一般假定\(X_i\)是与\(X\)同分布的独立随机变量,具体样本值则记作\(x_i\)。

  统计问题中的主要信息就是样本值\(X_i\),能对它进行的处理只有函数计算\(f(X_1,\cdots,X_n)\),这些函数值被称为样本统计量。统计量不能任意选取,它需要根据实际需要并一般有直观意义。比如最常用的统计量是式(1)中的样本均值\(\bar{X}\)和样本方差\(S^2\),它们一般作为分布的均值和方差的估计值。

\[\bar{X}=\frac{1}{n}\sum\limits_{i=1}^nX_i;\;\;S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2\tag{1}\]

  既然样本是随机变量,统计量自然也是随机变量。如果\(X\)的期望和方差是\((\mu,\sigma^2)\),则易知\(\bar{X}\)是有期望\(\mu\)和方差\(\dfrac{\sigma^2}{n}\)的随机变量。不难算得,\(S^2\)的期望值正好是\(\sigma^2\),所有系数取\(\frac{1}{n-1}\)是合理的,\(S^2\)的完整称谓是“修正的样本方差”。我们暂时可以这样“直觉”地解释这个现象:均值\(\bar{X}\)是由\(X_i\)生成的,它会随着\(X_i\)的变动而变动,这就导致真正自由、有效的变量减少了一个。下面马上会回来重新讨论这个问题。

  更一般的,比较重要的统计量还有样本原点矩样本中心距(式(2)),要注意\(k>1\)时,样本中心距都需要修正,只不过在\(n\)很大时可以近似地使用。其中一阶原点矩便是样本均值,二阶中心距便是未修正的样本方差,其它的统计量使用频率不高。

\[a_k=\frac{1}{n}\sum\limits_{i=1}^nX_i^k;\;\;m_k=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\bar{X})^k\tag{2}\]

  研究统计量是为了获取分布的信息,我们有一个很朴素的想法:当样本数足够多后,应当能绘制出分布函数\(F(x)\)的图形。根据分布函数的定义特点,可以定义这样一个统计量\(v_n(x)\):它表示满足\(X_i\leqslant x\)的样本数,并记\(F_n(x)=\dfrac{v_n(x)}{n}\),它称为经验分布函数。对于指定的\(x\),\(F_n(x)\)是随机变量,当把\(x\)也看作变量时,我们只好叫\(F_n(x)\)“随机函数”。不过不用担心概念会变复杂,因为\(|F_n(x)-F(x)|\)的最大值才是我们要关心的,而它是一个随机变量。数理统计中有著名的格里文科定理(式(3)),它说明\(F_n(x)\)以概率\(1\)收敛于\(F(x)\)。

\[P\left\{\lim_{n\to\infty}\sup_{x\in\mathbb{R}}\left|F_n(x)-F(x)\right|=0\right\}=1\tag{3}\]

1.2 统计量的自由度

  在概率论中我们熟知一个结论:如果\(X_1,\cdots,X_n\)互相不相关,则\(Y=X_1+\cdots+X_n\)的期望、方差可以简单地展开。\(n\)个\(X_i\)对\(Y\)的影响互不相关,这样的统计量十分易于讨论,我们暂且称它的自由度是\(n\)。下面就来研究一下样本方差的自由度为什么是\(n-1\)而不是\(n\),不过在此之前,需要先讨论一下随机变量正交变换的性质。

  对互不相关的随机变量\(X_i\),设对它们做正交线性变换后得到\(Y_i\),则首先容易得到式(4)。然后分别展开\(E(Y_iY_j)\)和\(E(Y_i)E(Y_j)\),根据正交性,以及\(X_i\)独立同分布,容易有式(5)成立,所以\(Y_i\)互不相关。这个结论对任何随机变量都成立,且也符合正交变换的一贯性质。

\[(X_1,\cdots,X_n)=(Y_1,\cdots,Y_n)A;\,AA^T=I\;\Rightarrow\;\sum_{i=1}^nX_i^2=\sum_{i=1}^nY_i^2\tag{4}\]

\[E(Y_iY_j)-E(Y_i)E(Y_j)=\sum_{k=1}^na_{ki}a_{kj}(E(X_k^2)-E^2(X_k))=0\tag{5}\]

  特别地,式(6)左的\(Y_1\)可以扩展为一个正交变换,利用式(4)便可得到式(6)右的结论。这不仅说明了\(S^2\)的自由度为\(n-1\),还可以知道\(\bar{X}\)和\(S^2\)是不相关的,这个结论非常重要。

\[Y_1=\sqrt{n}\bar{X}\;\Rightarrow\;\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^nX_i^2-Y_1^2=\sum_{i=2}^nY_i^2\tag{6}\]

  对于满足再生性的随机变量,\(Y_i\)和\(X_i\)具有相同的分布类型,且可知满足式(6)的\(Y_1\)有期望\(\sqrt{n}\mu\)和方差\(\sigma^2\),而其它\(Y_i\)有期望\(0\)和方差\(\sigma^2\)。特别地,当\(X_i\)是正态分布时,可以有式(7)成立,且\(\bar{X}\)与\(S^2\)相互独立。对\(\bar{X}\)的结论,一般写作式(8),右边是一个确定的分布(后面会用到)。

\[X_i\sim N(\mu,\sigma^2)\;\Rightarrow\;Y_1\sim N(\sqrt{n}\mu,\sigma^2);\; Y_i\sim N(0,\sigma^2)\tag{7}\]

\[\dfrac{\sqrt{n}(\bar{X}-\mu)}{\sigma}\sim N(0,1)\tag{8}\]

  更一般地,对于自由度为\(n\)的随机变量\(Q=X_1^2+\cdots+X_n^2\),其中\(X_i\)互不相关。现在把\(Q\)看成\(X_i\)的正定二次型,并记行向量\(\vec{X}=[X_1,\cdots,X_n]\)。假设\(Q\)可以分解为\(r\)个半正定二次型之和(式(9)左),且\(Q_k\)的秩\(n_k\)满足\(n_1+\cdots+n_r=n\)。由\(A_k\)的秩为\(n_k\)且半正定可知,存在\(n\times n_k\)的矩阵\(B_k\),使得\(Q_k=\vec{X}B_kB_k^T\vec{X}^T\)。

\[Q=Q_1+\cdots+Q_r=\vec{X}BB^T\vec{X}^T=\vec{Y}\vec{Y}^T\tag{9}\]

  令方阵\(B=[B_1,\cdots,B_r]\)和\(\vec{Y}=\vec{X}B\),则有\(Q=\vec{Y}\vec{Y}^T\)(式(9)右),从而\(BB^T=I_n\),\(B\)是一个正交矩阵。因为\(Y_j\)是由\(X_i\)正交变换而来,故根据式(5)知\(Y_j\)互不相关,继而\(Q_k\)之间是互不相关的。值得提醒的是,当\(Q\)也是一般的半正定二次型时,结论仍然成立,这个条件使用起来会更方便,请自行论证。

  现在利用这个结论再讨论\(S^2\)的自由度,首先显然有式(10)成立,其中的每一项都是关于\(X_i\)的半正定二次型。当半正定二次型具有形式\(\sum\limits_{i=1}^nZ_i^2\),且\(Z_i\)还有\(r\)个线性约束条件时,它本质上是关于\(n-r\)个自由变量的正定二次型,从而秩为\(n-r\)。这个小结论在判定二次型秩时很有用,比如\(S^2\)中设\(Z_i=X_i-\bar{X}\),则有\(1\)个限制条件\(Z_1+\cdots+Z_n=0\),从而\(S^2\)的秩为\(n-1\)。另外显然式(10)左的秩为\(n\),\(\bar{X}\)的秩为\(1\),满足以上定理的条件,故有\(S^2,\bar{X}\)不相关。

\[\sum_{i=1}^nX_i^2=n\bar{X}^2+(n-1)S^2\tag{10}\]

2. 统计学三大分布

  统计量也是随机变量,各种形式的统计量会产生许多新的随机变量,这些变量中的有些是经常出现的,有必要事先对它们做一些介绍。因为正态分布适用的场合最为广泛,这里的统计学三大分布都是基于正态分布的。

2.1 \(\chi^2\)(卡方)分布

  在介绍\(\chi^2\)分布之前,先讨论一个更一般的分布。将埃尔朗分布中的\(r\)扩展为任意正实数,得到的分布(11)称为\(\varGamma\)分布,一般记作\(\varGamma(r,\lambda)\)。式子中的\(\varGamma(r)\)确保了\(p(x)\)为密度函数,它被称为\(\varGamma\)函数。\(\varGamma\)函数在实数域是个\(U\)形函数,它有式(12)的基本结论,由于\(\varGamma(n)=(n-1)!\),它也被看成是阶乘概念的扩展。

\[p(x)=\dfrac{\lambda^r}{\varGamma(r)}x^{r-1}e^{-\lambda x},\;\varGamma(x)=\int_{-\infty}^{+\infty}t^{x-1}e^{-t}\,\text{d}t\tag{11}\]

\[\varGamma(x+1)=x\varGamma(x);\;\;\varGamma(1)=1,\;\varGamma(\dfrac{1}{2})=\sqrt{\pi}\tag{12}\]

  \(\varGamma\)分布具有和埃尔朗分布同样的特征函数,并且也满足再生性。这里不打算讨论\(\varGamma\)分布的更多性质,而是关注它的一类特例。假设\(X\sim N(0,1)\),可以证明\(X^2\sim\varGamma(\dfrac{1}{2},\dfrac{1}{2})\),这是个奇妙的巧合!如果\(X_1,\cdots,X_n\)是独立的标准状态分布,利用再生性有式(13)成立,它被称为自由度为\(n\)的\(\chi^2\)(卡方)分布,记作\(\chi_n^2\)。

\[X_i\sim N(0,1)\;\Rightarrow\;\sum_{i=1}^nX_i^2\sim\varGamma(\dfrac{n}{2},\dfrac{1}{2})=\chi_n^2\tag{13}\]

  上图是\(\chi^2\)分布的密度函数,\(n=1\)时便是\(X^2\),它有两条渐近线,\(n=2\)时是指数分布,\(n>2\)时分布曲线类似但越来越扁平。容易算得\(\chi_1^2\)有期望\(1\)和方差\(2\),这就得到\(\chi_n^2\)分布的期望和方差(式(14))。继续上面对\(S^2\)的讨论,由于\(Y_i\sim N(0,\sigma^2)\),可以得到\(S^2\)满足式(15)。另外如果\(X\)是指数函数,显然有\(2\lambda X\sim\chi_2^2\)。

\[Y\sim \chi_n^2\;\Rightarrow\;E(Y)=n;\;D(Y)=2n\tag{14}\]

\[\dfrac{(n-1)S^2}{\sigma^2}\sim\chi_{n-1}^2\tag{15}\]

  \(\chi^2\)分布的引入无非是为了讨论样本方差的性质,这个分布中不含有任何未知的参数,这种确定的分布非常便于概率的量化计算。但在量化分析的表达式中,不应该含有未知的参数(样本值\(X_i\)、样本容量\(n\)等属于已知量),这样的表达式一般称为枢轴变量。简单说,枢轴变量由已知量组成,且形成一个确定的分布,这个以后会深入讨论。

  一般教材上自由度的概念定义在随机变量\(Q=X_1^2+\cdots+X_n^2\)上,其中\(X_i\)是独立的标准正交分布。如果\(Q\)可以分解为\(k\)个半正定二次型,且秩的和为\(n\),则根据前面关于自由度的结论,变换矩阵\(B\)为正交矩阵,从而\(Y_i\)也是互相独立的正交分布。进而\(Q_k\)是自由度为\(n_k\)的卡方分布,且它们互相独立。这个结论称为柯赫伦(Cochran)分解定理,在数理统计中有着非常普遍的应用。

2.2 \(t\)分布

  公式(8)中参数\(\sigma\)往往是未知的,这会给分析带来困难,这时可以用\(S\)可以做为\(\sigma\)的近似。令\(X,Y\)分别代表式(8)(15)中的变量,消除\(\sigma\)后就形成变量\(\dfrac{X}{\sqrt{Y/(n-1)}}\)。这应当是我们要关心的数轴变量,它的分布是确定,为了便于讨论研究,需要为它作个定义。一般地,式(16)中的分布被称为自由度为\(n\)的\(t\)分布,记作\(t_n\)。下图是其密度函数,有人已经证明,当\(n\to\infty\)时,\(t\)分布收敛于正态分布,这也是符合直觉的。

\[X\sim N(0,1);\;Y\sim \chi_n^2\;\Rightarrow\;\dfrac{X}{\sqrt{Y/n}}\sim t_n\tag{16}\]

  再回到对式(8)(15)的讨论,显然有式(17)成立,这个结论以后经常用到。关于(17)式我想强调一下,式中好像是用\(S\)取代了\(\sigma\),这只是巧合而已,不要忘了其背后原理还是(8)(15)的结合。是因为\(\sigma\)恰巧被消掉才出现了式(17),遇到更复杂的情况时,要重新仔细计算(下一篇将遇到)。

\[\dfrac{\sqrt{n}(\bar{X}-\mu)}{S}\sim t_{n-1}\tag{17}\]

2.3 \(F\)分布

  还有一种常见的场景,就是比较两个分布的方差比\(\sigma_1^2/\sigma_2^2\)。同样利用\(S_i^2\)近似\(\sigma_i^2\),并利用公式(15)可以进行类似的讨论。为此,将式(18)中的分布被称为自由度为\(m,n\)的\(F\)分布,记作\(F_{m,n}\),下图是它的密度函数。

\[X\sim\chi_m^2;\;Y\sim\chi_n^2\;\Rightarrow\;\dfrac{X/m}{Y/n}\sim F_{m,n}\tag{18}\]

  回到方差的比较,设\(X,Y\)的方差分别为\(\sigma_1^2,\sigma_2^2\),样本容量分别为\(m,n\),样本方差分别为\(S_1^2,S_2^2\),容易知道有式(19)成立。

\[\dfrac{S_1^2}{S_2^2}\cdot\dfrac{\sigma_2^2}{\sigma_1^2}\sim F_{m-1,n-1}\tag{19}\]

  数理统计中使用分布函数时,和概率论中是相反的,即根据概率值来确定随机变量的值。满足\(P(X>C)=\alpha\)的\(C\)被称为分布的\(\alpha\)上分位点,对于正态分布和上面的三大分布,\(\alpha\)上分位点分别记作\(u(\alpha),\chi_n^2(\alpha),t_n(\alpha),F_{m,n}(\alpha)\)。其中\(t_n,F_{m,n}\)有式(20)的简单性质,它们在计算和制表中比较有用,证明比较简单,请自行验证。

\[t_n(1-\alpha)+t_n(\alpha)=0;\;\;F_{m,n}(\alpha)\cdot F_{n,m}(1-\alpha)=1\tag{20}\]

时间: 2024-10-30 18:18:25

【数理统计基础】 02 - 统计量和三大分布的相关文章

关于数理统计基础知识的一点补漏

关于数理统计基础知识的一点补漏 一. 数学期望 数学期望也称为均值.期望,在物理学中称为期待值.在概率论和统计学中,一个离散型随机变量的期望值是实验中每次可能结果的概率乘以其结果的总和. 定义: 离散型随机变量的一切可能取值与其对应的概率p的乘积之和称为数学期望. 需要注意的是,期望值并不一定等于常识中“期望”——期望值或许与每一个结果都不相等.换句话说,期望值是该变量输出值的平均数,因此期望值并不一定包含于变量的输出值集合里. 二. 方差(Variance) 方差是各个数据与平均数值差的平方的

【数理统计基础】 05 - 回归分析

参数估计和假设检验是数理统计的两个基础问题,它们不光运用于常见的分布,还会出现在各种问题的讨论中.本篇开始研究另一大类问题,就是讨论多个随机变量之间的关系.现实生活中的数据杂乱无章,够挖掘出各种变量之间的关系非常有用,它可以预估变量的走势,能帮助分析状态的根源.关系分析的着手点可以有很多,我们从最简单直观的开始,逐步展开讨论. 1. 一元线性回归 1.1 回归分析 如果把每个量都当做随机变量,问题的讨论会比较困难,或者得到的结论会比较受限.一个明智做法就是只把待考察的量\(Y\)看做随机变量,而

【数理统计基础】 06 - 相关分析和方差分析

1. 相关分析 1.1 相关系数 在一堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务.由于线性关系的特殊.常见和简单,数学上往往采用线性关系来逼近实际关系.上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计.如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜方差的相关概念. 两个变量之间的线性关系,就是之前学过的协方差的概念\(\text{Cov}(X,Y)\).在得到\(n\)个样本\((X_i,Y_i)\)后,容易得到式(1)的无偏估计,注

概率论与数理统计基础<1>:随机事件与随机变量

Part1. 随机事件 1-1.随机试验 随机试验:可以在相同条件下重复进行,每次试验的结果不止一个,事先知道所有可能的结果但不确定是哪一个的试验. 举例:重复的抛出一枚均匀的硬币就是一个随机试验,事先知道它的结果,但是不知道究竟是正面还是反面. 1-2.随机事件 定义1:随机试验可能的结果,称为样本空间,它的子集就叫做随机事件. 定义2:在一定条件下,可能发生也可能不发生的事件叫做随机事件. 举例:抛出硬币后可能正面落地,可能反面落地,那么"抛出硬币后正面落地"就是一个随机事件,它可

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

推荐系统中所需的概率论与数理统计知识

前言 一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友只看不发的围脖评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣.想想,甚合我意.自此,便从rickjin写的"正态分布的前世今生"开始研习数学. 如之前微博上所说,"今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从'正态分布的前后今生'中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,

从零进阶!数据分析的统计基础

第 1 章数据分析概述 11.1 什么是数据分析 . 21.2 数据分析六步曲 . 21.2.1 明确分析目的和内容 . 21.2.2 数据收集. 31.2.3 数据预处理. 31.2.4 数据分析. 31.2.5 数据展现. 41.2.6 报告撰写. 51.3 数据分析方法简介 . 51.3.1 统计分析方法简介 . 51.3.2 数据挖掘方法简介 . 61.3.3 统计分析与数据挖掘的区别和联系 . 91.4 常用数据分析工具的安装 . 101.4.1 在 Excel 2013 中安装数据分

R语言笔记005——计算描述性统计量

数据的分布特征: 分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度(平均数,中位数,四分位数,众数) 分布的离散程度,反应各数据远离其中心值的趋势(极差,四分位差,方差,标准差,离散系数) 分布的形状,反应数据分布的偏斜程度和峰度(偏态系数,峰度系数) ####################### 平均数(均值):一组数据相加后除以数据的个数而得到结果,称为平均数(mean) 中位数:一组数据排序后处于中间位置上的变量值,称为中位数(median) 四分位数:一组数据排序后处于25%(下四

机器学习笔记——t分布知识点总结

1.t分布式统计分布的一种,同卡方分布(χ2分布).F分布并称为三大分布. 2. t分布又叫student-t分布,常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值.(如果总体的方差已知的话,则应该用正态分布来估计总体的均值.)(所以一个前提是:t分布的样本的总体必须符合正态分布) 3.t分布一般用于小样本(样本量比较小)的情形. 4.假设X服从标准正态分布即X~N(0,1),Y服从自由度n的卡方分布即Y~χ2(n),且X与Y是相互独立的,那么Z=X/sqrt(Y/n)的分布成为自由的