一、正态分布
正态分布是最常见也是最重要的一种连续型数据分布,标准正态分布是正态分布的一种,
当 μ=0,σ=1时的正态分布为标准正态分布,为了应用方便,常将正态分布通过Z分数转换为标准正态分布,这种转换后的分布也称为u分布或z分布。
正态分布的主要特征:
1.集中性:正态曲线的高峰位于正中央,即均数所在的位置,正态分布的均值、中位数、众数都相等
2.对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
3.均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
4.正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ)。
二、正态分布检验
有些统计方法只适用于正态分布或近似正态分布,因此在应用这些方法之前,通常要判断数据是否服从正态分布,或样本是否来自正态总体,这就需要正态性检验
【任何正态检验原假设都是数据服从正态分布】
1.P-P图
P-P概率图的原理是检验样本实际累积概率分布与理论累积概率分布是否吻合,若吻合,则散点应围绕在一条直线周围,或者实际概率与理论概率之差分布在对称于以0为水平轴的带内(这种称为去势P-P图),P-P图常用来判断正态分布,但实际上它可以考察其他很多种分布。
2.Q-Q图
Q-Q概率图的原理是检验实际分位数与理论分位数之差分布是否吻合,若吻合,则散点应围绕在一条直线周围,或者实际分位数与理论分位数之差分布在对称于以0为水平轴的带内(这种称为去势Q-Q图)。Q是单词quantile的缩写,是分位数的意思。
P-P图和Q-Q图的用途完全相同,实际功能也类似,只是Q-Q图比P-P-图更加稳健一些,下面介绍Q-Q图的具体制作方法:
构建正态Q-Q图
首先,数据值经过排序,且累积分布值按照公式 (i– 0.5)/n 进行计算,其中字母表示总数为 n 的值中的第 i 个值(累积分布值给出了某个特定值以下的值所占的数据比例)。累积分布图通过以比较方式绘制有序数据和累积分布值得到(如下图中左上角的图表所示)。标准正态分布(平均值为 0 标准方差为 1 的高斯分布,如下图的中右上角的图表所示)的绘制过程与此相同。生成这两个累积分布图后,对与指定分位数相对应的数据值进行配对并绘制在 QQ 图中(见下图的底图所示)。
构建普通Q-Q图
普通 QQ 图用于评估两个数据集的分布的相似程度。这些图的创建和所述的正态 QQ 图的过程类似,不同之处在于第二个数据集不一定要服从正态分布,使用任何数据集均可。如果两个数据集具有相同的分布,普通 QQ 图中的点将落在 45 度直线上,如下图
3.峰度检验和偏度检验
峰度(kurtosis)是用来反映频数分布曲线顶端尖峭或扁平程度的指标,
偏度(skewness)是用来反映数据分布曲线非对称程度的指标,
峰度和偏度最初是由皮尔逊用矩的概念演算而来,随机变量X的3阶标准矩称为偏度,4阶标准矩称为峰度,由于标准正态分布的期望μ=0,方差=1,可以得到标准正态分布的偏度等于0,峰度等于3,在实际应用中,为了方便查看,有的统计分析软件如SPSS将峰度值做减3处理,使计算值和0比较,偏度的方向左偏或右偏,是指曲线长尾的方向,而不是高峰的方向。
峰度检验和偏度检验类似,都是构造相应的统计量,现以偏度检验为例:
所谓偏度检验就是检验如下假设:
检验结果如果接受HO,并不等价于接受原假设“样本来自正态总体”,因为任何一个对称分布的偏度都为0,无法排除样本来自非正态对称分布的可能,因此偏度检验只能检验数据分布的对称性,同样,峰度检验也是如此,因此偏度和峰度检验无法做正态性检验,有些教材和文档中提出直接根据峰度系数和偏度系数判断是否正态分布,我认为并不严谨,至少还需要结合P-P图或Q-Q图观察。
4.R检验
虽然偏度和峰度无法做正态性检验,但这两个指标毕竟是正态分布很重要的特征,因此皮尔逊将这两个统计量综合起来进行检验,称为R检验。
R检验假设样本偏度和峰度相互独立,但是对于小样本,这个假设不一定成立,如果偏度和峰度之间具有相关性,那么R检验犯第二类错误的概率会偏高,因此,R检验并不能算一个好的正态检验方法。
5.jarque-Bera正态性检验(J-B检验)
这是一种普通采用的基于偏度和峰度统计量的正态性检验方法,它根据偏度和峰度数值构建JB统计量:
其中S为偏度,K为峰度
在正态分布的假设下,JB统计量渐进服从自由度为2的卡方分布,如果变量服从正态分布,则JB统计量趋于0,否则JB统计量趋于无限大,如果JB统计量值较大,比如为11,则可以计算出卡方值大于11的概率为0.004,这个概率过小,因此不能认为样本来自正态分布。反之,成立。
JB统计量有一个收敛速度慢的缺点,因此提出了一种修正的JB统计量,称为AJB,在样本量较小的情况下,AJB比JB效果更好。
无论JB还是AJB,都是渐进式的检验,因此不太适合小样本检验,我认为样本量至少要超过1000,另外,如果是多峰分布,不能使用J-B检验。
6.Kolmogorov-Smirnov检验
Kolmogorov-Smirnov检验(简称K-S检验)是检验单一样本是否来自某一特定分布,换句话说就是检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。它的检验方法是以样本数据的累积频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布。它是一种基于ECDF(经验累积分布函数,是样本累积分布函数对实际累积分布函数的近似)检验,由于K-S检验构建的是一个D统计量,因此也有人称它为D检验,同样被称为D检验的还有一个D‘Agostino‘s K-squared正态性检验,K-S检验只适用于连续和定量数据,并且样本量至少要50以上
7.Lilliefor检验
是基于Kolmogorov-Smirnov检验的一种正态性检验,是对Kolmogorov-Smirnov检验的一种修正,当使用Kolmogorov-Smirnov做正态性检验时,总体的均值和方差是未知的,此时Lilliefor提出用样本的均值和方差进行替代,从而构建了另一个D值,在小样本情况下,经过Lilliefor修正的Kolmogorov-Smirnov检验会比单纯使用Kolmogorov-Smirnov检验更精确一些,但是随着样本量增大,Kolmogorov-Smirnov检验的功效会越来越好。
SPSS中探索性分析和非参数检验菜单中均提供了Kolmogorov-Smirnov检验,但是探索性分析中的Kolmogorov-Smirnov检验是经过Lilliefor修正的,所以很多朋友会奇怪为什么相同的数据二者计算出的结果会不同,原因就在于此。
8.χ2拟合优度检验
拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度,拟合优度检验用卡方统计量进行显著性检验,当总体分布未知时,用样本检验总体分布是否与某一理论分布一致。虽然拟合优度检验和K-S检验都采用频数检验,但是拟合优度检验主要用于类别数据,如果用于定量数据,需要先将数据分组,并且要求多变量之间相互独立,而K-S检验没有这些限制,只要是连续或定量数据即可,因此拟合优度在基于连续变量的正态分布检验上使用比较少。
9.Shapiro- Wilk (W 检验)
这是一种基于相关性的检验,通过构建一个W统计量,来判断是否符合正态分布,因此也称为W检验。W检验只适用于小样本(n=8-50)情况下,W检验的算法需要将数据从小到大排序,因此它容易受到异常值的影响。通常如果样本量小于50,并且没有特别的异常值,我们会选择W检验作为检验标准,但是其他检验方法的功效都是随着样本量的增大而增大。
维基百科上有这样一句话
Empirical testing has found that ShapiroWilk has the best power for a given significance,followed closely by AndersonDarling when comparing the Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors, and Anderson–Darling tests.
大概意思是:Shapiro-Wilk, Kolmogorov–Smirnov, Lilliefors,和Anderson–Darling这四种方法经实证测试比较,Shapiro–Wilk对于一个给定的意义拥有最强功效,紧随其后的是Anderson-Darling。翻译能力有限,不知道是否正确,但是按它的意思,Anderson-Darling应该是继W检验之后的第二选择。
10.Anderson-Darling检验
简称A-D检验,此检验是将样本数据的经验累积分布函数与假设数据呈正态分布时期望的分布进行比较。如果实测差异足够大,该检验将否定总体呈正态分布的原假设。A-Squared值也是表述数据正态分布程度的一种,全称是Anderson-Darling系数,不过,与p值相反的是,A-Squared值越小,代表实际的分配和理论分配的差异,越接近0时,判断为更加符合正态。
11.Ryan-Joiner正态性检验
此检验通过计算数据与数据的正态分值之间的相关性来评估正态性。如果相关系数接近 1,则总体就很有可能呈正态分布。Ryan-Joiner 统计量可以评估这种相关性的强度;如果它未达到适当的临界值,您将否定总体呈正态分布的原假设。此检验类似于 Shapiro-Wilk 正态性检验。是一种基于相关的检验
12.Cramer-von Mises正态性检验
这种方法我只是看到过,网上没什么资料,但是具体用法以及原理,维基百科上有介绍。
13.D‘Agostino‘s K-squared test正态性检验
此方法也被简称D检验,这种方法网上资料很少,从维基百科上看到是一种基于频率的检测,根据峰度和偏度来构建统计量,样本量n:50-1000。
================================================
上面介绍了那么多检验方法,现总结一下
1.正态性检验的方法很多,但是都是基于的理论只有几种,例如基于累积分布函数的和基于相关的。
2.绝大多数的检验方法在制造统计量的时候,都将数据进行了排序,这说明如果数据中有极值,会影响检验结果,但是实际上我们处理数据最开始都需要做描述性分析,这期间会注意到异常值,是替换、删除还是线性变换都会有所处理,因此异常值对后面的正态性检验影响不大。
3.维基百科上很推荐Shapiro - Wilk,但是很多文档提到它只是在样本量较小的情况下表现不错,关于这个样本量的界定,有很多种说法,有的说n在3-50之间,也有说n在8-50之间,也有说SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov 为准。而SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准。但通常样本量上千的情况下,W检验和D检验的差别不会太大,至少不会出现一个显著一个不显著这样矛盾的结果。PS:如果你遇到了,请告诉我。
4.很多检验的效力都是随着样本量增大而增大,大样本并且单峰分布情况下,我个人还是倾向于使用J-B检验的。
5.在做检验是时候,一定要结合图来看,因为图形最直接的反映了数据的全部信息,是最直观的观察方法
6.如果做了很多种检验,每种检验的P值都不同,这很正常,因为这些方法的数学表达式就不一样,中间对数据的处理也不一样,会有信息损失等原因的,在正态检验中,尤其是接近α水准时,往往容易出现相互矛盾的结果,所以要根据资料的性质判断用什么方法进行检验更合适。不是把所有的方法都做一遍。对于到底P取多少才有意义,其实还是得结合Q-Q,P-P图之类的来观察会好些。