方差分析

t检验可以解决连续变量单样本、两样本时的均数比较问题,但如果大于两个样本,那么再使用t检验就不妥,因为t检验主要是两两比较,再大于两样本情况下,再使用两两比较会增大犯I类错误的概率,且这种概率呈指数增长,例如三个样本两两比较,犯I类错误的概率不是a而是1-(1-a)3,是非常大的,因此,在多样本均值差异性分析时,通常采用方差分析。

方差分析(ANOVA)又称变异数分析,由Fisher提出,方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,它基于差异分解是思想进行:将总差异分解为由研究因素所造成的差异和抽样误差所造成的差异两部分,通过比较来自不同部分的差异,构造F统计量,借助F分布做出统计推断。

在这里,由研究因素所造成的差异又称为组间差异,它是各组间均值的差异,由随机因素造成的差异和可能存在的处理因素所造成的差异组成,用变量在各组的均值与总均值之偏差平方和计算抽样误差所造成的差异又称为组内差异,它是各组内自身的差异,只由随机因素造成的误差组成,用变量在各组的均值与该组内变量值之偏差平方和的总和计算

用等式表示为:

总差异(SST)=组内差异(SSW)+组间差异(SSB)

组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,计算均方的目的是消除样本量的影响。

构造的F统计量为:

F=MSB/MSW=(随机因素造成的差异+处理因素造成的差异)/随机因素造成的差异

由此可见,如果处理因素没有造成差异,那么组间差异应该接近组内差异,F值应该无限接近1,如果处理因素有造成差异,F值将大于1,且差异性越强,F值越大。

=======================================================

很多分析模型都是在一定的假设条件下推导出来的,方差分析也是如此,它也有一些适用条件:

1.独立性

样本中的各个元素、各个测量水平之间必须相互独立,来自真正的随机抽样,这样才能保证所产生的的差异可以分解,如果样本之间存在关联,那么会造成样本间的差异除了研究因素导致之外,还有其他原因混入,不利于差异分解。

2.正态性

这里的正态性不是指样本数据本身,而是指残差要服从正态分布。

3.方差齐性

方差齐性要求各水平下的总体要有相同的方差,也就是说它们的分布是否一致。和要求独立性原因一样,如果方差齐性,那么差异原因必然来自研究因素导致,如果方差不齐,那么差异原因除了研究因素之外,还有一部分要被归结为二者总体分布不同所导致,这样我们就无法判断造成差异的具体原因是什么。

以上条件看似苛刻,但实际并非如此,首先独立性只要我们注意抽样的随机性通常都可以满足,其次正态性只要残差不是严重的偏态,结果都比较稳健,但对于方差齐性,现在大多数教材都认为这点对结果影响比较大,是一个不能忽略的问题,而实际上方差齐性是根据最小二乘设定的,广义最小二乘并没有要求方差齐性,我们还记得在两样本t检验的时候,分别给出了方差相等和不相等两种情况下的t值,那么方差检验也是如此,在SPSS中的两两比较中,同样给出了假定方差相等和未假定方差相等两组方法,但是关于方差不等时方差分析结果的准确程度如何,我没有查到相关证明资料,而且绝大多数教材都提到为了确保结果准确,建议将方差不齐的数据进行转化至相等时再继续分析。

=====================================================

我们在判断方差是否相等时,通常有以下几种检验方法

1.Bartlett检验

Bartlett检验用于检验多个样本之间的方差差异的显著性,通过构造卡方统计量来进行检验,基本思路是将各组的样本方差的加权算数平均值除以其几何平均值,由于几何平均值不会超出算数平均值,因此如果各组总体方差相等,那么样本方差之间不会相差很大,该比值接近1,反之则意味着总体方差差异较大,

由于其判断依据是不同样本分布的“拖尾”大小。因此,该方法对分布的非正态性也十分敏感。这就是说,只要总体方差有显著差别或者总体分布的偏斜程度有所不同,Bartlett检验的结果都可能显著。因此我们在使用Bartlett检验之前,首先要判断样本间的分布是否一致,如果不一致,则不适合使用Bartlett检验。

Bartlett检验具体为

H0:m个样本所代表的各总体方差相同
H1:m个样本所代表的各总体方差不同

2.修正的Bartlett检验

Bartlett检验在样本量小于5的情况下误差较大,因此有人提出了一种修正的Bartlett检验,具体为

其中

模拟验证表明,修正的Bartlett检验无论在大样本和小样本情况下均能更好的服从卡方分布,可以显著提高检验精度,但是常用统计软件如SPSS没有提供修正的Bartlett检验。

3.Hartley检验

该检验只适用于每组样本量相同的实验设计,且样本来自正态分布总体。

其基本思想是通过计算样本中最大方差和最小方差的比值来构建统计量,将此统计量和抽样分布中的临界值进行比较,具体为

设每组样本量为m

H0:r组样本所代表的各总体方差相同
H1:r组样本所代表的各总体方差不同

当个样本方差相等时,H统计量应该接近1,H越大表明样本间方差差异越大,需要拒绝H0。其拒绝域为:

可通过随机模拟方法得到H统计量分布的分位数,该分布依赖于样本组数(或水平数)r和样本方差的自由度f=m-1,因此该分布可记做H(r,f)

4.Cochran检验(Cochran‘s C test)

这里的Cochran检验指的是Cochran‘s C检验,而不是Cochran‘s Q检验,注意二者不要混淆。Cochran‘s C检验是单侧方差异常值检验,同Hartley检验一样,Cochran‘s C检验也需要每组样本量相同和每组样本都是正态分布。Hartley检验只使用了最大方差和最小方差计算统计量,而Cochran‘s C检验则使用了全部样本方差,因此Cochran‘s C检验比Hartley检验更为全面。

Cochran‘s C检验的统计量为:

其中Sj为最大样本方差

5.Levene方差齐性检验

以上方法都要求样本呈正态分布,但是Levene对此并无要求,因为Levene检验被广泛应用

Levene检验的具体实现是通过将变量值转化之后,利用F检验来检验各组的方差的差别

H0:各处理组方差相等
H1:各处理组方差不等

Levene检验构建的W统计量为

Zij有三种转换方法
1.

2.

3.

得出的统计量和F分布的分位数 进行比较

对原始数据转换不同,计算的W统计量也不同。SAS和SPSS都默认采用第1种转换方法。三种转换方法可适用于不同的数据类型

第1种方法针对正态分布和对称分布的数据

第2种方法针对偏态分布数据

第3种方法针对有极端值或离群值的数据

=================================================

总结以上几种方差齐性的检验方法,我们发现

1.各种检验方法都要求样本为随机样本且相互独立,其实这在实际操作中并不难实现。

2.Bartlett检验和修正Bartlett检验对样本分布很敏感,正态分布时效果较好,稍微呈偏态效果就会不精确。

3.Hartley检验和Cochran检验处理要求样本为正态分布之外,还要求每个分组的样本量相同。

4.Levene检验对于样本分布和样本量均无要求,因此被认为是标准的方差齐性检验方法,SAS和SPSS都默认采用此方法。

时间: 2024-10-16 18:53:40

方差分析的相关文章

R语言实战(五)方差分析与功效分析

本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析

SPSS数据分析—多元方差分析

之前的单因素方差分析和多因素方差分析,都在针对一个因变量,而实际工作中,经常会碰到多个因变量的情况,如果单纯的将其拆分为多个单因变量的做法不妥,需要使用多元方差分析或因子分析 多元方差分析与一元方差分析本质区别是:一元方差分析是组间均方与组内均方进行比较,而多元方差分析时组间方差协方差矩阵与组内方差协方差矩阵进行比较,这也解释了为何不做多次的一元方差分析,因为一元方差分析不能分析出自变量对多个因变量的协方差结构模式的影响,而多元方差分析同时考察多个因变量而不是一个,把多个因变量看做一个整体联合分

方差分析随笔

方差分析是个什么玩意嘞?方差分析是一个卧槽,我也说不出是个什么玩意,分析方差用的??? 好像是能测出啥呢?测出u1=u2=u3是不是成立?就是说人们喜欢不喜欢1,2,3菜和菜的种类是有关的. 方差分析需要个啥呢?SST,SSW,SSB,degree of freedom ,m种,一种n个 SST (sum of squares total) 总的变差 m*n-1 SSW(sum of squares within) 组内变差 m*(n-1) SSB(sum of squares Between)

连续型变量的推断性分析——方差分析(2)

前面我们介绍了差异分解的方差分析思路,这是最初始的方差分析思想,随着线性模型的发展,人们又将线性模型的思想引入了方差分析,大大提升了这一分析方法的发展空间,下面我们来介绍一下线性模型在方差分析中的体现.任何一次实验结果都可以表示成如下形式: Yi=μ+εi 其中Yi是第i次实验的实际结果,μ是该结果的最佳估计值,其实就是总体均值,εi是均值和实际结果的偏差也就是随机误差,为了方便推导,我们假定εi服从均值为0,标准差为某个定值的正态分布,这也是前面讲到的方差分析的适用条件之一. 我们把以上形式按

【数理统计基础】 06 - 相关分析和方差分析

1. 相关分析 1.1 相关系数 在一堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务.由于线性关系的特殊.常见和简单,数学上往往采用线性关系来逼近实际关系.上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计.如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜方差的相关概念. 两个变量之间的线性关系,就是之前学过的协方差的概念\(\text{Cov}(X,Y)\).在得到\(n\)个样本\((X_i,Y_i)\)后,容易得到式(1)的无偏估计,注

统计学——Excel实现单(双)因素方差分析

加载Excel"数据分析"工具包 [文件]→[选项]→[加载项]→[Excel加载项]→[转到] 数据分析 Located in[数据] 实现单因素方差分析 这里给出Excel示例数据.参数设置表 输入区域可包含整张表格,例子中因素A各个水平以列表示,标志位即第一行(接受合并单元格) 同理[分组方式]为"列"时,标志位为第一列: 设置标志位后,得到结果"组"这一列即会以标志命名,便于区分. Weird Thing--验算发现Excel数据分析在计

R语言之方差分析

一.单因素方差分析 单因素方差分析只有一个分组变量,因此数据看起来像一个多列的数据框,如 Grass Heath Arable1      3     6     192      4     7      33      3     8      84      5     8      85      6     9      96     12    11     117     21    12     128      4    11     119      5    NA     

5方差分析

方差分析是试验研究中分析试验数据的重要方法,应用什么广泛.本章将介绍方差分析的基本思想及单因素和双因素方差分析方法. 5.1.1基本概念 在实际 中常常要通过实验来了解各种因素对产品的性能,产量等的影响,这些性能,产量指标等统称为试验指标,而称影响试验指标的条件,原因等为因素或因子,称因素所处的不同状态为水平.各因素对试验指标的影响一般不同的,就是一个因素的没的水平对试验指标的影响往往也是不同的.方差分析就是通过对试验数据进行分析,检验方差相同的各正态总体的均值是否相等地,以判断各因素对试验指标

统计学——单(双)因素方差分析

方差分析(Analysis of Variance / ANOVA) 实验中,我们要考察的指标为试验指标,影响的条件成为因素.由于各种因素的影响,使得测试数据结果呈波动状,包含不可控的随机因素.人为调控的可控因素. 应用条件: 1.各样本是相互独立的随机样本 2.各样本均来自正态分布总体 3.各样本的总体方差相等,即具有方差齐性 单因素方差分析(one-way ANOVA) 试验参数 假设因素A有s个水平A1,A2-..,As,每个水平下进行nj次独立试验,样本总数n 观测变量总离差平方和 =