正态分布与正态分布检验

一、正态分布

正态分布是最常见也是最重要的一种连续型数据分布,标准正态分布是正态分布的一种,

当 μ=0,σ=1时的正态分布为标准正态分布,为了应用方便,常将正态分布通过Z分数转换为标准正态分布,这种转换后的分布也称为u分布或z分布。

正态分布的主要特征

1.集中性:正态曲线的高峰位于正中央,即均数所在的位置,正态分布的均值、中位数、众数都相等
2.对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
3.均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
4.正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ)。

二、正态分布检验

有些统计方法只适用于正态分布或近似正态分布,因此在应用这些方法之前,通常要判断数据是否服从正态分布,或样本是否来自正态总体,这就需要正态性检验

【任何正态检验原假设都是数据服从正态分布】

1.P-P图

P-P概率图的原理是检验样本实际累积概率分布与理论累积概率分布是否吻合,若吻合,则散点应围绕在一条直线周围,或者实际概率与理论概率之差分布在对称于以0为水平轴的带内(这种称为去势P-P图),P-P图常用来判断正态分布,但实际上它可以考察其他很多种分布。

2.Q-Q图

Q-Q概率图的原理是检验实际分位数与理论分位数之差分布是否吻合,若吻合,则散点应围绕在一条直线周围,或者实际分位数与理论分位数之差分布在对称于以0为水平轴的带内(这种称为去势Q-Q图)。Q是单词quantile的缩写,是分位数的意思。

P-P图和Q-Q图的用途完全相同,实际功能也类似,只是Q-Q图比P-P-图更加稳健一些,下面介绍Q-Q图的具体制作方法:

构建正态Q-Q图

首先,数据值经过排序,且累积分布值按照公式 (i– 0.5)/n 进行计算,其中字母表示总数为 n 的值中的第 i 个值(累积分布值给出了某个特定值以下的值所占的数据比例)。累积分布图通过以比较方式绘制有序数据和累积分布值得到(如下图中左上角的图表所示)。标准正态分布(平均值为 0 标准方差为 1 的高斯分布,如下图的中右上角的图表所示)的绘制过程与此相同。生成这两个累积分布图后,对与指定分位数相对应的数据值进行配对并绘制在 QQ 图中(见下图的底图所示)。

构建普通Q-Q图

普通 QQ 图用于评估两个数据集的分布的相似程度。这些图的创建和所述的正态 QQ 图的过程类似,不同之处在于第二个数据集不一定要服从正态分布,使用任何数据集均可。如果两个数据集具有相同的分布,普通 QQ 图中的点将落在 45 度直线上,如下图

3.峰度检验和偏度检验

峰度(kurtosis)是用来反映频数分布曲线顶端尖峭或扁平程度的指标,
偏度(skewness)是用来反映数据分布曲线非对称程度的指标,

峰度和偏度最初是由皮尔逊用矩的概念演算而来,随机变量X的3阶标准矩称为偏度,4阶标准矩称为峰度,由于标准正态分布的期望μ=0,方差=1,可以得到标准正态分布的偏度等于0,峰度等于3,在实际应用中,为了方便查看,有的统计分析软件如SPSS将峰度值做减3处理,使计算值和0比较,偏度的方向左偏或右偏,是指曲线长尾的方向,而不是高峰的方向。

峰度检验和偏度检验类似,都是构造相应的统计量,现以偏度检验为例:

所谓偏度检验就是检验如下假设:

检验结果如果接受HO,并不等价于接受原假设“样本来自正态总体”,因为任何一个对称分布的偏度都为0,无法排除样本来自非正态对称分布的可能,因此偏度检验只能检验数据分布的对称性,同样,峰度检验也是如此,因此偏度和峰度检验无法做正态性检验,有些教材和文档中提出直接根据峰度系数和偏度系数判断是否正态分布,我认为并不严谨,至少还需要结合P-P图或Q-Q图观察。

4.R检验

虽然偏度和峰度无法做正态性检验,但这两个指标毕竟是正态分布很重要的特征,因此皮尔逊将这两个统计量综合起来进行检验,称为R检验。

R检验假设样本偏度和峰度相互独立,但是对于小样本,这个假设不一定成立,如果偏度和峰度之间具有相关性,那么R检验犯第二类错误的概率会偏高,因此,R检验并不能算一个好的正态检验方法。

5.jarque-Bera正态性检验(J-B检验)

这是一种普通采用的基于偏度和峰度统计量的正态性检验方法,它根据偏度和峰度数值构建JB统计量:

其中S为偏度,K为峰度

在正态分布的假设下,JB统计量渐进服从自由度为2的卡方分布,如果变量服从正态分布,则JB统计量趋于0,否则JB统计量趋于无限大,如果JB统计量值较大,比如为11,则可以计算出卡方值大于11的概率为0.004,这个概率过小,因此不能认为样本来自正态分布。反之,成立。
JB统计量有一个收敛速度慢的缺点,因此提出了一种修正的JB统计量,称为AJB,在样本量较小的情况下,AJB比JB效果更好。

无论JB还是AJB,都是渐进式的检验,因此不太适合小样本检验,我认为样本量至少要超过1000,另外,如果是多峰分布,不能使用J-B检验。

6.Kolmogorov-Smirnov检验

Kolmogorov-Smirnov检验(简称K-S检验)是检验单一样本是否来自某一特定分布,换句话说就是检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。它的检验方法是以样本数据的累积频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布。它是一种基于ECDF(经验累积分布函数,是样本累积分布函数对实际累积分布函数的近似)检验,由于K-S检验构建的是一个D统计量,因此也有人称它为D检验,同样被称为D检验的还有一个D‘Agostino‘s K-squared正态性检验,K-S检验只适用于连续和定量数据,并且样本量至少要50以上

7.Lilliefor检验

是基于Kolmogorov-Smirnov检验的一种正态性检验,是对Kolmogorov-Smirnov检验的一种修正,当使用Kolmogorov-Smirnov做正态性检验时,总体的均值和方差是未知的,此时Lilliefor提出用样本的均值和方差进行替代,从而构建了另一个D值,在小样本情况下,经过Lilliefor修正的Kolmogorov-Smirnov检验会比单纯使用Kolmogorov-Smirnov检验更精确一些,但是随着样本量增大,Kolmogorov-Smirnov检验的功效会越来越好。

SPSS中探索性分析和非参数检验菜单中均提供了Kolmogorov-Smirnov检验,但是探索性分析中的Kolmogorov-Smirnov检验是经过Lilliefor修正的,所以很多朋友会奇怪为什么相同的数据二者计算出的结果会不同,原因就在于此。

8.χ2拟合优度检验

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度,拟合优度检验用卡方统计量进行显著性检验,当总体分布未知时,用样本检验总体分布是否与某一理论分布一致。虽然拟合优度检验和K-S检验都采用频数检验,但是拟合优度检验主要用于类别数据,如果用于定量数据,需要先将数据分组,并且要求多变量之间相互独立,而K-S检验没有这些限制,只要是连续或定量数据即可,因此拟合优度在基于连续变量的正态分布检验上使用比较少。

9.Shapiro- Wilk (W 检验)

这是一种基于相关性的检验,通过构建一个W统计量,来判断是否符合正态分布,因此也称为W检验。W检验只适用于小样本(n=8-50)情况下,W检验的算法需要将数据从小到大排序,因此它容易受到异常值的影响。通常如果样本量小于50,并且没有特别的异常值,我们会选择W检验作为检验标准,但是其他检验方法的功效都是随着样本量的增大而增大。

维基百科上有这样一句话
Empirical testing has found that ShapiroWilk has the best power for a given significance,followed closely by AndersonDarling when comparing the Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors, and Anderson–Darling tests.

大概意思是:Shapiro-Wilk, Kolmogorov–Smirnov, Lilliefors,和Anderson–Darling这四种方法经实证测试比较,Shapiro–Wilk对于一个给定的意义拥有最强功效,紧随其后的是Anderson-Darling。翻译能力有限,不知道是否正确,但是按它的意思,Anderson-Darling应该是继W检验之后的第二选择。

10.Anderson-Darling检验

简称A-D检验,此检验是将样本数据的经验累积分布函数与假设数据呈正态分布时期望的分布进行比较。如果实测差异足够大,该检验将否定总体呈正态分布的原假设。A-Squared值也是表述数据正态分布程度的一种,全称是Anderson-Darling系数,不过,与p值相反的是,A-Squared值越小,代表实际的分配和理论分配的差异,越接近0时,判断为更加符合正态。

11.Ryan-Joiner正态性检验

此检验通过计算数据与数据的正态分值之间的相关性来评估正态性。如果相关系数接近 1,则总体就很有可能呈正态分布。Ryan-Joiner 统计量可以评估这种相关性的强度;如果它未达到适当的临界值,您将否定总体呈正态分布的原假设。此检验类似于 Shapiro-Wilk 正态性检验。是一种基于相关的检验

12.Cramer-von Mises正态性检验
这种方法我只是看到过,网上没什么资料,但是具体用法以及原理,维基百科上有介绍。

13.D‘Agostino‘s K-squared test正态性检验

此方法也被简称D检验,这种方法网上资料很少,从维基百科上看到是一种基于频率的检测,根据峰度和偏度来构建统计量,样本量n:50-1000。

================================================

上面介绍了那么多检验方法,现总结一下

1.正态性检验的方法很多,但是都是基于的理论只有几种,例如基于累积分布函数的和基于相关的。

2.绝大多数的检验方法在制造统计量的时候,都将数据进行了排序,这说明如果数据中有极值,会影响检验结果,但是实际上我们处理数据最开始都需要做描述性分析,这期间会注意到异常值,是替换、删除还是线性变换都会有所处理,因此异常值对后面的正态性检验影响不大。

3.维基百科上很推荐Shapiro - Wilk,但是很多文档提到它只是在样本量较小的情况下表现不错,关于这个样本量的界定,有很多种说法,有的说n在3-50之间,也有说n在8-50之间,也有说SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov 为准。而SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准。但通常样本量上千的情况下,W检验和D检验的差别不会太大,至少不会出现一个显著一个不显著这样矛盾的结果。PS:如果你遇到了,请告诉我。

4.很多检验的效力都是随着样本量增大而增大,大样本并且单峰分布情况下,我个人还是倾向于使用J-B检验的。

5.在做检验是时候,一定要结合图来看,因为图形最直接的反映了数据的全部信息,是最直观的观察方法

6.如果做了很多种检验,每种检验的P值都不同,这很正常,因为这些方法的数学表达式就不一样,中间对数据的处理也不一样,会有信息损失等原因的,在正态检验中,尤其是接近α水准时,往往容易出现相互矛盾的结果,所以要根据资料的性质判断用什么方法进行检验更合适。不是把所有的方法都做一遍。对于到底P取多少才有意义,其实还是得结合Q-Q,P-P图之类的来观察会好些。

时间: 2024-10-06 06:41:53

正态分布与正态分布检验的相关文章

标准正态分布+标准正态分布概率表+分布函数+积分

X~N(μ,σ²):一般正态分布:均值为μ.方差为σ² http://blog.csdn.net/zhanghongxian123/article/details/39008493 对于标准正态分布来说,存在一张表,称为:标准正态分布表: 该表计算的是:P(X<=x)[某个数落在某个[[email protected],x]]的概率.也就是下面阴影图形所示的面积: 如果x=1.96.则将1.96拆分为1.9和0.06.横轴1.9和纵轴0.06的交汇处:0.975.就是x<=1.96的概率. 也

正态分布的前世今生(下)

http://songshuhui.net/archives/77386 作 者: rickjin(靳志辉??) 校 对: 汤涛,香港浸会大学数学讲座教授 正态分布的前世今生(上) 六.开疆扩土,正态分布的进一步发展 19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩.在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石.而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下. 6.1

【程序员眼中的统计学(7)】正态分布的运用:正态之美

正态分布的运用:正态之美 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于统

正态分布的前世今生(上)

神说,要有正态分布,就有了正态分布.神看正态分布是好的,就让随机误差服从了正态分布.创世纪—数理统计 1. 正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉.这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式 f(x)=12π−−√σe−(x−μ)22σ2 也非常具有数学的美感.其标准化后的概率密度函数 f(x)=12π−−√e−x22 更加的简洁漂亮,两个最重要的数学常量 π.e 都出现在这公式之中.在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一

正态分布(Normal distribution)又名高斯分布(Gaussian distribution)

正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学.物理及project等领域都很重要的概率分布,在统计学的很多方面有着重大的影响力. 若随机变量X服从一个数学期望为μ.标准方差为σ2的高斯分布,记为: X∼N(μ,σ2), 则其概率密度函数为 正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度.因其曲线呈钟形,因此人们又常常称之为钟形曲线.我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布(见右图中绿色曲

T 分布(近似标准正态分布)

1.1      定义 定义:假设X服从标准正态分布N(0,1),Y服从 卡方分布,那么 的分布称为自由度为n的t分布,记为 . 分布密度函数 ,其中,Gam(x)为伽马函数. 可用于两组独立计量资料的假设检验. 由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ总体方差的估计值,为了与u变换(正态化变换)区别,称为t变换,统计量t 值的分布称为t分布.[u分布也叫标准正态分布] u变换:[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1

Numpy-np.random.normal()正态分布

X ~ :随机变量X的取值和其对应的概率值P(X = ) 满足正态分布(高斯函数) 很多随机现象可以用正态分布描述或者近似描述 某些概率分布可以用正态分布近似计算 正态分布(又称高斯分布)的概率密度函数 numpy中 numpy.random.normal(loc=0.0, scale=1.0, size=None) 参数的意义为: loc:float 概率分布的均值,对应着整个分布的中心center scale:float 概率分布的标准差,对应于分布的宽度,scale越大越矮胖,scale越

转载:传说中的T检验

第二周结束:传说中的T检验 小耿2014-01-21 10:58 本文和上一篇笔记一样:语言十分啰嗦.请大家忍耐…… 以前我不懂统计的时候(现在也不懂),只知道数据出来了要做三件事:1,检验一下数据是否符合正态分布:2,如果符合正态分布,就进行T检验,看P值是否小于0.05:3,如果数据不符合正态分布,就用另外的“非参数检验”.但是我完全不明白这些名词背后是什么原理. 这些原理是这样的: 举个例子:好比我们有一个H0假设(不希望出现的假设)说:“抽烟人群的肺活量和非抽烟人群没有差异”.我们已经知

使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布

假设检验的基本思想: 若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的.如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设. 实质分析: 假设检验实质上是对原假设是否正确进行检验,因此检验过程中要使原假设得到维护,使之不轻易被拒绝:否定原假设必须有充分的理由.同时,当原假设被接受时,也只能认为否定该假设的根据不充分,而不是认为它绝对正确. 1.检验指定的数列是否服从正态分布 借助假设检验的思想,利用K-S检验可以对数列的性质进行检验