t检验可以解决连续变量单样本、两样本时的均数比较问题,但如果大于两个样本,那么再使用t检验就不妥,因为t检验主要是两两比较,再大于两样本情况下,再使用两两比较会增大犯I类错误的概率,且这种概率呈指数增长,例如三个样本两两比较,犯I类错误的概率不是a而是1-(1-a)3,是非常大的,因此,在多样本均值差异性分析时,通常采用方差分析。
方差分析(ANOVA)又称变异数分析,由Fisher提出,方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,它基于差异分解是思想进行:将总差异分解为由研究因素所造成的差异和抽样误差所造成的差异两部分,通过比较来自不同部分的差异,构造F统计量,借助F分布做出统计推断。
在这里,由研究因素所造成的差异又称为组间差异,它是各组间均值的差异,由随机因素造成的差异和可能存在的处理因素所造成的差异组成,用变量在各组的均值与总均值之偏差平方和计算抽样误差所造成的差异又称为组内差异,它是各组内自身的差异,只由随机因素造成的误差组成,用变量在各组的均值与该组内变量值之偏差平方和的总和计算
用等式表示为:
总差异(SST)=组内差异(SSW)+组间差异(SSB)
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,计算均方的目的是消除样本量的影响。
构造的F统计量为:
F=MSB/MSW=(随机因素造成的差异+处理因素造成的差异)/随机因素造成的差异
由此可见,如果处理因素没有造成差异,那么组间差异应该接近组内差异,F值应该无限接近1,如果处理因素有造成差异,F值将大于1,且差异性越强,F值越大。
=======================================================
很多分析模型都是在一定的假设条件下推导出来的,方差分析也是如此,它也有一些适用条件:
1.独立性
样本中的各个元素、各个测量水平之间必须相互独立,来自真正的随机抽样,这样才能保证所产生的的差异可以分解,如果样本之间存在关联,那么会造成样本间的差异除了研究因素导致之外,还有其他原因混入,不利于差异分解。
2.正态性
这里的正态性不是指样本数据本身,而是指残差要服从正态分布。
3.方差齐性
方差齐性要求各水平下的总体要有相同的方差,也就是说它们的分布是否一致。和要求独立性原因一样,如果方差齐性,那么差异原因必然来自研究因素导致,如果方差不齐,那么差异原因除了研究因素之外,还有一部分要被归结为二者总体分布不同所导致,这样我们就无法判断造成差异的具体原因是什么。
以上条件看似苛刻,但实际并非如此,首先独立性只要我们注意抽样的随机性通常都可以满足,其次正态性只要残差不是严重的偏态,结果都比较稳健,但对于方差齐性,现在大多数教材都认为这点对结果影响比较大,是一个不能忽略的问题,而实际上方差齐性是根据最小二乘设定的,广义最小二乘并没有要求方差齐性,我们还记得在两样本t检验的时候,分别给出了方差相等和不相等两种情况下的t值,那么方差检验也是如此,在SPSS中的两两比较中,同样给出了假定方差相等和未假定方差相等两组方法,但是关于方差不等时方差分析结果的准确程度如何,我没有查到相关证明资料,而且绝大多数教材都提到为了确保结果准确,建议将方差不齐的数据进行转化至相等时再继续分析。
=====================================================
我们在判断方差是否相等时,通常有以下几种检验方法
1.Bartlett检验
Bartlett检验用于检验多个样本之间的方差差异的显著性,通过构造卡方统计量来进行检验,基本思路是将各组的样本方差的加权算数平均值除以其几何平均值,由于几何平均值不会超出算数平均值,因此如果各组总体方差相等,那么样本方差之间不会相差很大,该比值接近1,反之则意味着总体方差差异较大,
由于其判断依据是不同样本分布的“拖尾”大小。因此,该方法对分布的非正态性也十分敏感。这就是说,只要总体方差有显著差别或者总体分布的偏斜程度有所不同,Bartlett检验的结果都可能显著。因此我们在使用Bartlett检验之前,首先要判断样本间的分布是否一致,如果不一致,则不适合使用Bartlett检验。
Bartlett检验具体为
H0:m个样本所代表的各总体方差相同
H1:m个样本所代表的各总体方差不同
2.修正的Bartlett检验
Bartlett检验在样本量小于5的情况下误差较大,因此有人提出了一种修正的Bartlett检验,具体为
其中
模拟验证表明,修正的Bartlett检验无论在大样本和小样本情况下均能更好的服从卡方分布,可以显著提高检验精度,但是常用统计软件如SPSS没有提供修正的Bartlett检验。
3.Hartley检验
该检验只适用于每组样本量相同的实验设计,且样本来自正态分布总体。
其基本思想是通过计算样本中最大方差和最小方差的比值来构建统计量,将此统计量和抽样分布中的临界值进行比较,具体为
设每组样本量为m
H0:r组样本所代表的各总体方差相同
H1:r组样本所代表的各总体方差不同
当个样本方差相等时,H统计量应该接近1,H越大表明样本间方差差异越大,需要拒绝H0。其拒绝域为:
可通过随机模拟方法得到H统计量分布的分位数,该分布依赖于样本组数(或水平数)r和样本方差的自由度f=m-1,因此该分布可记做H(r,f)
4.Cochran检验(Cochran‘s C test)
这里的Cochran检验指的是Cochran‘s C检验,而不是Cochran‘s Q检验,注意二者不要混淆。Cochran‘s C检验是单侧方差异常值检验,同Hartley检验一样,Cochran‘s C检验也需要每组样本量相同和每组样本都是正态分布。Hartley检验只使用了最大方差和最小方差计算统计量,而Cochran‘s C检验则使用了全部样本方差,因此Cochran‘s C检验比Hartley检验更为全面。
Cochran‘s C检验的统计量为:
其中Sj为最大样本方差
5.Levene方差齐性检验
以上方法都要求样本呈正态分布,但是Levene对此并无要求,因为Levene检验被广泛应用
Levene检验的具体实现是通过将变量值转化之后,利用F检验来检验各组的方差的差别
H0:各处理组方差相等
H1:各处理组方差不等
Levene检验构建的W统计量为
Zij有三种转换方法
1.
2.
3.
得出的统计量和F分布的分位数 进行比较
对原始数据转换不同,计算的W统计量也不同。SAS和SPSS都默认采用第1种转换方法。三种转换方法可适用于不同的数据类型
第1种方法针对正态分布和对称分布的数据
第2种方法针对偏态分布数据
第3种方法针对有极端值或离群值的数据
=================================================
总结以上几种方差齐性的检验方法,我们发现
1.各种检验方法都要求样本为随机样本且相互独立,其实这在实际操作中并不难实现。
2.Bartlett检验和修正Bartlett检验对样本分布很敏感,正态分布时效果较好,稍微呈偏态效果就会不精确。
3.Hartley检验和Cochran检验处理要求样本为正态分布之外,还要求每个分组的样本量相同。
4.Levene检验对于样本分布和样本量均无要求,因此被认为是标准的方差齐性检验方法,SAS和SPSS都默认采用此方法。