问题:全国大学生数学建模竞赛2012年A题第一题第一小问——分析附件1中两组评酒员的评价结果有无显著性差异。
工具:Excle、SPSS19中文版
以两组红葡萄酒的评分为例,综合运用t检验、方差分析、χ2检验,符号检验和秩和检验分别求解。其中t检验和方差分析属于参数检验,需要总体服从正态分布且需要检验方差齐性。χ2检验、符号检验和秩核检验属于非参数检验。
1)首先用Excle对原数据进行处理,得到品酒员对酒样的总评分:
注:其中4号品酒员对酒样20色调的评分缺失,用其他九位品酒员的评分均值替代。
2)t检验
双样本t检验通过检验两个样本的均值是否相同来判断总体之间是否存在显著性差异,根据样本性质的不同又分为独立样本t检验和配对样本t检验。这两种方法在此题中都有应用,其中独立样本t检验又有两种处理方式——以酒样或以组别为单位进行分析。
独立样本t检验
i.以酒样为单位进行分析
①数据录入
②操作流程
分析==>比较均值==>独立样本t检验
检验变量==>选入【酒样品1】~【酒样品27】
分组变量==>选入【组别】==>定义组==>使用指定值==>组1==>输入1==>组2==>输入2
③结果与分析
以酒样1为例,前两列对样本进行了方差齐性检验,如果Sig.大于0.05则表明样本通过检验,否则不通过。若样本通过方差齐性检验,以第五列第一行的Sig.为准,否则为第二行。如果该Sig.大于0.05则表明样本间没有显著性差异。
统计后发现20个酒样无显著性差异,7个酒样有显著性差异。无显著性差异的酒样占了绝大多数,可以认为这两组品酒员的评价结果无显著性差异。
ii.以组别为单位进行分析
①数据录入
其中【组别】前270行为1,后270行为2。【评分】前270行为第一组评分拉伸为列后的数据,后270行为第二组评分拉伸为列后的数据。
②操作流程
分析==>比较均值==>独立样本t检验
检验变量==>选入【评分】
分组变量==>选入【组别】==>定义组==>使用指定值==>组1==>输入1==>组2==>输入2
③结果与分析
结果显示该样本没有通过方差齐性检验。第五列第二行的Sig.为0.001,说明这两组品酒员的评价结果有显著性差异。
配对样本t检验
①数据录入
【红1】和【红2】分别是两组评分的均值。
②操作流程
分析==>比较均值==>配对样本t检验==>选入【红1】和【红2】
③结果与分析
可以看到Sig.小于0.05,所以这两组品酒员的评价结果有显著性差异。
3)方差分析
虽然叫做方差分析,但实际上是对每组数据的均值作比较。不同于t检验,方差分析可以比较两组以上的数据。下面我分别用单因素方差分析和有交互作用的双因素方差分析进行了处理。
单因素方差分析
①数据录入
与独立样本t检验的第ii种情况相同。
②操作流程
分析==>一般线性模型==>单变量
因变量==>选入【评分】
固定变量==>选入【组别】
③结果与分析
上表显示第四行【组别】所属的Sig.小于0.05,表明这两组品酒员的评价结果有显著性差异。
有交互作用的双因素方差分析
①数据录入
其中【酒样】是数据对应酒样的编号,范围是1~27.
②操作流程
分析==>一般线性模型==>单变量
因变量==>选入【评分】
固定变量==>选入【组别】和【酒样】
③结果与分析
实际上仅从【组别】来看这和单因素方差分析的结果没有什么不同,但是如果对此表中【酒样】【组别*酒样】和【误差】的Ⅲ型平方和加总,我们可以发现这和前一张表格中【误差】的Ⅲ型平方和
刚好相等。有交互作用的双因素方差分析对单因素方差分析中的【误差】做了更进一步的分解。
4)χ2检验
这里并不是用χ2统计量来检验拟合优度而是检验独立性。如果分组情况和打分不独立,那么组别就会对评分造成影响,不同组别的评分之间应该存在显著性差异。反之,则不存在显著性差异。
①数据录入
确定评分区间时应保证每个区间内的频数大于5.
②操作流程
数据==>加权个案==>选择加权个案==>在频数变量中选入【频数】
分析==>描述统计==>交叉表
行==>选入【组别】
列==>选入【评分区间】
统计量==>卡方
③结果与分析
由上表,检验拒绝了【组别】和【评分区间】独立的原假设,我们可以说两组品酒员的评价结果有显著性差异。
5)符号检验与秩和检验
符号检验和秩和检验都是检验样本的中值是否相同。与均值相同,中值也可以表示数据的位置,因此这两种检验也可以检验样本之间有无显著性差异。
①数据录入
与配对样本t检验相同
②操作流程
分析==>非参数检验==>旧对话框==>2个相关样本==>选入【红1】和【红2】
检验类型==>选择Wilconxon和符号检验
③结果与分析
可以看出两种检验都表明这两组品酒员的评价结果有显著性差异。
6)小结
对于差异性的检验不能局限于单一的方法,除了常见的t检验和方差分析,对非参数检验在这方面的应用也应该有所了解。