在一些科学研究领域如医学研究、农业研究中,分析问题首先要设计一个实验,进而收集数据、得出结论。其实在其他领域的数据分析也是一样,只是实验的概念有所不同。
我们知道,数据挖掘是在事先没有明确的分析目的的情况下,对数据进行探索,从中找到数据间的未知的潜在关系,为问题的分析提供灵感。而数据分析首先要做的就是明确分析目的,根据这个分析目的收集、整理数据,然后选择相应的分析方法、得出结论,整个过程唯一不变的就是分析目的,其余步骤都有可能反复进行、不断校正。那么实验设计就是衔接整个过程的具体实施方案。
实验设计需要理论与实践相结合,不同的实验设计要采用相应的分析方法,实验设计的好坏直接关系到分析工作能否正确顺利的进行,一定要认真谨慎的对待。实验设计所收集上来的数据,通常使用列联表进行汇总,不同的实验设计,构造出的列联表也有所不同。
首先来介绍一下在实验设计中要使用到的常用术语和定义
1.指标
在各种实验因素或水平作用下产生的结果值,也就是实验中实际得到的值,也可以称为实验过程的因变量,指标可以是定量指标也可以是定性指标,相应的指标值也就为连续型和离散型
2.因素
对实验指标有影响的原因或要素,也可称为实验过程中的自变量。实际上也就是我们要进行分析的内容,我们在选择因素进行分析的时候要抓住主要因素、控制非主要因素。
3.水平
水平就是因素在实验过程中所处的不同状态,可以为数值或字符描述。既然我们主要分析因素对于实验指标的影响,那么根据因素的数量来划分实验设计方法,可以分为单因素实验设计和两因素及以上实验设计:
一、单因素实验设计方法
单因素实验设计主要针对只引入一个影响因素的两个或多个水平,注意这里说引入的意思是影响实验指标的因素通常有很多种,而我们只想分析其中一种,根据经验来讲,这种被分析的因素往往影响力是最强的。
1.完全随机设计方法:
将样本随机分为不同的组,每组接受不同水平的试验。或从不同的总体中随机抽取一定样本接受不同水平的试验。要确保每组样本或每个样本只接受一种水平的处理。
这种试验设计的特点是随机:随机抽样、随机分组、随机配置,每组或每个样本有同等机会接受任意一种水平的处理。
优点是:方法简单易行
缺点是:只分析一个因素,不考虑样本间的差异,这样会增大误差,并且对样本同质性要求较高,比较适合大样本。
随机抽取的每组样本量可以相等也可以不等,但是相等时效率更高,在设计时,应尽量满足每组样本量相等。在多个处理组之间,还涉及两两比较的问题。
2.配对设计
配对样本我们在之前有遇到过,指的是将相同或相近的两个个体接受相同或不同的实验处理,这里要注意两个关键词:
(1)两个个体:必须是两个个体才能称为配对,如果是多个个体就是配伍(下面会讲),配对是配伍的其中一种常见用法。
(2)不同的实验处理:谓不同的试验处理,可以是同一因素的不同水平,也可以是不同因素的同一水平,因此,配对设计既可以是单因素实验设计也可以是多因素实验设计,如果是多因素实验设计,需要考虑交互作用。
注意:我们进行配伍的因素不能是要进行分析的实验因素,并且不能和实验因素存在交互作用。
配对设计可以大致分四种
(1)自身前后配对设计:同一个体在实验前和实验后的指标对比或同一个体分别接受两种水平处理的指标对比,强调的是同一个体。
(2)自身左右配对设计:同一个体的两个局部在实验前和试验后的指标对比或分别接受两种水平处理的指标对比,强调的是同一个体的两个局部,这种设计一般出现在医学研究中,如左右眼、左右肾脏等,在其他分析中很少用到。
(3)异体配对设计:指的是将相近或条件相同的个体组成配对的一组,一个作为实验组接受实验处理,另一个作为对照组不接受实验处理,将二者结果进行对比。
(4)交叉配对设计:一种特殊的配对设计,它通过引入阶段性概念,可以对时间因素在实验设计中的影响分析出来,具体操作方法为:根据事先规定好的试验顺序,随机将一部分样本在第一阶段接受A实验处理,第二阶段接受B实验处理,顺序为AB,再将剩下的样本在第一阶段接受B实验处理,第二阶段接受A实验处理,顺序为BA,两种实验处理在全过程中交叉进行,并且阶段和处理都可以增加。
配对设计的优点是由于个体间差异=0,因此抽样误差很小
缺点是:有时很难将处理前后的非处理因素等条件控制的完全一致,如果是异体配对,对配对要求较高。
3.配伍设计
配伍设计也称为随机区组设计,先将条件相同或相近的样本配成对子,称为配伍组,然后根据随机分配的原则将这些配伍组给予不同的试验处理。
我们可以这样想,将整个实验分成若干个相对独立的单元,每个单元内设置一套完整的实验,这样的单元可以看做是配伍组或区组,区组内的样本各项条件应基本一致,而区组之间则有明显区别。当每个区组内只包含两个个体时,就是配对实验设计。和配对设计一样,配伍设计也可以为单因素或多因素设计,如果是多因素实验设计,需要考虑交互作用。
注意:我们进行配伍的因素不能是要进行分析的实验因素,并且不能和实验因素存在交互作用。
由于进行了分组,误差被分为了两部分:一部分是组内误差,由于组内条件一致,这部分误差可以认为是随机误差。另一部分是组间误差,这部分误差可以从总变异中析出,从而使随机误差更为纯粹。
优点是:排出了非实验因素的干扰,减少了抽样误差,使效能较高
缺点是:由于配伍的条件限制,有时候很难将样本配对成功。
二、两因素及以上实验设计方法
1.拉丁方设计
拉丁方设计主要用来分析3个及3个以上因素对实验结果的影响,但是最常用于3因素分析。具体设计方法是:
把需要分析的因素做为处理因素,用拉丁字母表示,其他两个因素分别用行列表示,由此构成一个数据方阵,故称为拉丁方设计,如下图4其中字母处理因素要求随机
使用拉丁方设计有一些前提条件
(1)各因素之间不能存在交互作用,或交互作用可忽略不计
(2)各因素水平数必须相等
(3)数据不能有缺失值
(4)每种因素水平不可重复
拉丁方设计的优点:
在配伍设计中,我们进行配伍以消除系统误差,但是如果系统误差来自两个方向,那么我们就要设置两个方向的区组来进行消除,拉丁方的行列就是这两个方向的区组,它使得实验进一步区组化和均衡化,能充分显示出处理间的差异,效率更高。而缺点,就是前面讲到的那些前提条件,限制性较高。
2.析因设计
析因设计是将两个或两个以上因素的各种水平进行全面组合的实验设计,它对各种组合都进行实验设计,可以分析:
(1)在其他因素的某个水平条件下,某一因素不同水平间的差别(单独效应)
(2)在其他因素全部水平条件下,某一因素不同水平间的平均差别(主效应)
(3)某因素的各个单独效应随另一因素的不同水平变化而变化,并得出最佳组合(交互作用)
当选用因分析做为实验设计时,要注意几点:
(1)每组水平组合至少做两次独立重复实验
(2)在具体实验时,全部因素是同时施加的,换句话说,实验因素不是分期分批出现在实验过程中的
(3)在进行统计分析时,将全部因素视为对观察指标的影响是同等重要的。
析因设计是一种全面且高效的实验设计方法,但是由于是全面实验,因此分析的因素和水平数不宜过多,否则计算起来非常繁琐,一般以4因素以内为佳。
3.正交设计
析因设计的缺点是实验次数太多,并且其中的有些实验并没有太大意义可以不做,正交设计正是利用正交表,在全面实验中科学的选取具有代表性的水平组合进行实验,是析因设计的部分实施。
正交设计特别适用于因素数量比较多并且每个因素水平又比较少的情况。
正交设计使用的正交表可以分为:
(1)等水平正交表
各因素水平数相等的正交表
L:正交表代号
n:正交表横行数(试验次数)
r:因素水平数
m:正交表纵列数(最多能安排的因子个数)
等水平正交表有如下特点:
<1>表的任一列,不同数字出现的次数相同
<2>表的任意两列的同行数字对出现的次数相同
(2)混合水平正交表
各因素水平不完全相同的正交表
选择正交表的基本原则
<1>先确定实验因素、水平和交互作用,主要因素可多选几个水平,次要因素可少选几个水平
<2>看水平,如果水平都相等,则为等水平正交表,否则为混合水平正交表
<3>每个交互作用在正交表中应占一列或两列
<4>如果实验要求精度高,则宜选取试验次数多的正交表
4.均匀设计
我们知道正交设计特别适用于因素数量比较多并且每个因素水平又比较少的情况,并且正交设计根据正交性挑选试验点,并且遵循两个特点:试验点均匀分散、试验点排列规律整齐,但是当因素数量或水平数较大时,正交设计的实验次数仍然很大,并且为了照顾排列规律整齐,正交设计并不能充分实现均匀分散。
而均匀设计只考虑均匀分散,而不考虑排列整齐,因此均匀设计比正交设计均匀性更好,试验点有更好的代表性,由于不考虑排列整齐,因此可以大大减少实验次数。
均匀设计表符号表示如下:
均匀实验很适合因素水平较多的情况下,因此多用于实验的初步考察阶段(被考察的因素较多,且考察的因素水平较广)
均匀设计的最大缺点就是计算比较复杂,需要使用非线性回归的二次响应曲面回归。