数学模型可以看做是人们对复杂的现实问题进行简化描述的数学表达式,由于统计学来源于数学,因此在统计分析中,也普遍使用模型来分析问题。数学中模型的分类非常多,但统计学中最常用的模型是线性模型和非线性模型。
在此,首先明确几个概念
1.线性关系
线性关系是指自变量和因变量之间成比例的关系,即增量之间有固定的比例,比如X增加了m,那么Y就增加km,这里隐含着两个要点:
(1)自变量与因变量是一次函数关系
(2)函数图像呈一条过原点的直线,注意是要过原点
2.非线性关系
与线性关系相对应,非线性关系是指自变量和因变量之间没有固定的比例关系,二者之间不是一次函数关系,函数图像为曲线
3.直线关系
我们在做散点图考察变量关系时,发现呈直线趋势的话,就称其为具有线性关系,实际上这是不严谨的,因为线性关系特指函数图像为过原点的直线,当图像不过原点时,虽然也为直线,则不能称为线性关系,而应该称为直线关系。只不过在统计分析中,大部分模型都有常数项,也就是截距,使得函数图不过原点,因此我们才会将二者等同起来。
4.线性模型
线性模型中的“线性”有两重含义,一个是自变量的线性,即自变量与因变量是一次函数关系,另一个是参数的线性,即因变量与各模型参数是一次函数关系。其中第二点最为重要,当自变量不满足条件时,我们可以通过变量变换使其满足条件,而参数不满足线性条件时,往往不能通过变量变换解决(也有例外),因此我们将参数为线性的模型称为线性模型
5.非线性模型
由上可知,因变量与各模型参数是非线性关系的模型为非线性模型。
根据以上概念,我们可以做出如下划分
在统计分析中,一般线性模型是应用最广泛同时也是最重要的是一类模型,它通常包括线性回归模型、方差分析模型、协方差分析模型、方差分量模型等,而广义线性模型本质上还是属于非线性模型,但是同时有一些其他非线性模型所不具备的性质,最大的区别是一般非线性模型没有明确的随机误差分布,而广义线性模型的随机误差分布是明确的,如二项分布、Poisson分布、负二项分布等,而当其为正态分布时,广义线性模型和一般线性模型是等价的。
我们下面来介绍这些常用的线性模型
=========================================
一、方差分析模型(ANOVA)
方差分析也称为变异分析,从观测变量的方差入手,研究某些因素(自变量)的不同水平对某些指标(因变量)影响,同时也可以研究因素间的交互效应。用统计语言来讲,就是检验多个方差相同的正态总体均值是否相等,这也和t检验相对应。
当只有一个因素和一个指标时,为单因素方差分析;多个因素和一个指标为多因素方差分析,多个因素和多个指标称为多元方差分析。
方差分析的基本思想是变异(也就是方差)的分解,将总变异分为条件变异和随机变异,条件变异是由实验因素引起的变异,而随机变异是随机因素引起的变异(准确来讲应该是除实验因素之外的未知因素引起的变异),将二者加以比较,如果条件变异在某种显著性水平下大于随机因素,则认为该因素对实验指标产生显著影响。
(1)单因素方差分析模型
如果只有一个实验因素,在i个水平条件下,模型可以表示成如下形式
由模型可知,当αi全部为0时,观测值就等于总体均值加随机误差,说明该因素的各水平对观测值没有附加影响,而当有一个αi不为0时,此时的αi值就是某水平附加在观测值上的影响,因此我们通过检验αi是否全部为0,就可以分析因素对指标的影响。同时,还可以检验不同水平的αi值是否相等,来分析各水平间是否存在显著差异。
【前提条件】
·ε服从正态分布(正态性)
·ε均值为0,方差为常数(方差齐性)
·ε相互独立(独立性)
这三个条件都是关于随机误差ε的,也有说法是关于样本观测值的,实际是一回事,从模型的角度讲,观测值就是模型中的X,相当于因变量,而因变量的这些特征都可以通过随机误差(模型中为残差)来表现,因此会有专门的残差分析,还有一个原因是:由于正态性和方差齐性的考察是以单元格为单位,而有些实验设计如配伍设计每个单元格中只有一个元素,无从考察,即使每个单元格不止一个元素,如果很少的话也会影响正态性和方差齐性的检验效能,因此建模后的残差分析相对来说更加可靠。
【主要分析点】
·方差分析模型的整体检验:即检验因素效应是否全部为0
·每个因素的效应检验:即检验是否存在对因变量无影响的因素,在单因素方差分析中,该检验等同于模型整体性检验
·因素各水平间的多重比较:即因素的各水平间的两两差异性比较检验。
+++++++++++++++++++++++++++++++++++++++++++++++++
(2)多因素方差分析模型
以两因素为例,α因素有i个水平,β因素有j个水平,模型可以表示成如下形式
多因素和单因素的模型解释类似,只是多了一个不同因素间的交互作用,这也增加了模型的复杂性,多因素方差分析和单因素方差分析的前提条件是一样的
【前提条件】
·ε服从正态分布(正态性)
·ε均值为0,方差为常数(方差齐性)
·ε相互独立(独立性)
【主要分析点】
·方差分析模型的整体检验:即检验因素效应是否全部为0
·每个因素的效应检验:即检验是否存在对因变量无影响的因素,如果存在,可以将其去掉以简化模型
·因素间交互作用检验:即检验所有因素之间的交互作用是否对因变量有显著影响,如果没有影响,也可以考虑去除
·因素各水平间的多重比较:即各因素的各水平间的两两差异性比较检验。
·残差图:可以分析数据是否满足前提条件
+++++++++++++++++++++++++++++++++++++++++++++
(3)协方差分析模型
协变量是一种独立的自变量,它们不受实验者控制,却可影响实验结果。当我们要分析的指标既受到实验因素的影响也受到协变量的影响时,就必须先消除协变量的影响,这样得出的结果才是纯粹由实验因素引起的。
当我们了解到分析指标可能受到某些协变量影响时,可以在收集数据时,将这些协变量一并收集,然后使用协方差分析进行处理。但有时我们并不知道哪些变量是作为协变量而收集的,因此我们可以这样理解:对于仅涉及单变量的实验资料,总变异仅为该因素引起的变异和随机误差变异,因此可以用方差分析。对于多变量的资料,总变异既包含各个因素引起的变异也包含因素间的协同变异也就是交互作用,因此需要使用协方差分析。那多因素方差分析不也是多变量资料吗,为什么不用协方差分析呢?实际上协方差分析可以看做是多因素方差分析的特例,因为多因素方差分析已经包含了对交互作用的分析,而且多因素方差分析中的实验因素为分类变量,协方差分析中的协变量为连续变量,采取的计算方式不一样。协方差分析一般是通过计算因变量与协变量的线性回归,求假定协变量相等时的因变量值,用该值再做方差分析。
以一个处理组(i个水平)和一个协变量x为例,协方差分析模型可以表示成如下形式
可以看出,和方差分析模型相比,协方差分析模型中添加了线性回归的成分。
【前提条件】
·ε服从正态分布(正态性)
·ε均值为0,方差为常数(方差齐性)
·ε相互独立(独立性)
·协变量与分析指标存在线性关系,可以通过回归分析方法进行判断
·各处理组的总体回归系数相等且不为0(斜率同质性)
【主要分析点】
·协方差分析模型的整体检验:即检验因素效应是否全部为0
·每个因素的效应检验:即检验是否存在对因变量无影响的因素,如果存在,可以将其去掉以简化模型
·因素间交互作用检验:即检验所有因素之间的交互作用是否对因变量有显著影响,如果没有影响,也可以考虑去除,交互作用检验在协方差分析中,也就相当于斜率同质性检验,当处理因素和协变量不存在交互作用时,可认为数据符合斜率同质性。
·因素各水平间的多重比较:即各因素的各水平间的两两差异性比较检验。
·残差图:可以分析数据是否满足前提条件
++++++++++++++++++++++++++++++++++++++++
(4)随机效应方差分析模型
前面介绍的单因素、多因素、协方差分析模型都有一个隐含的假设,那就是处理因素的水平是固定的,也就是说这些水平穷极了所有的可能,不会再有其他的情况出现,所以以上三种模型也称为固定效应方差分析模型,但是实际中,我们有时无法或没有必要确定所有的因素水平,所确定的因素或水平只是众多因素或水平中随机抽取的,相当于在总体中抽取样本,这样所产生的效应称为随机效应,具有随机效应的模型称为随机效应方差分析模型。
随机效应方差分析模型和多因素方差分析模型类似,可以表示成如下形式
对于随机效应方差分析模型,我们只要检验随机效应的方差是否为0即可,而不用检验各处理效应,因为这些处理是随机抽取的,检验对因变量有无影响并没有实际意义。
如果不存在交互作用的模型,固定效应方差分析模型和随机效应方差分析模型的结果是一样的。
【前提条件】
·ε服从正态分布(正态性)
·ε相互独立(独立性)
+++++++++++++++++++++++++++++++++++++
(5)混合效应方差分析模型
既包含固定效应也包含随机效应的方差分析模型称为混合效应方差分析模型,进行的检验也是固定效应和随机效应相结合。
【前提条件】
·ε服从正态分布(正态性)
混合线性模型保留了一般线性模型的正态性前提条件,放弃了独立性和方差齐性的条件
========================================
二、线性回归模型
当方差分析模型右侧全部由定量的影响因素构成时,就为线性回归模型
【前提条件】
·ε服从正态分布(正态性)
·ε均值为0,方差为常数(方差齐性)
·ε相互独立(独立性)
·自变量与因变量具有线性关系
====================================
三、广义线性模型
广义线性模型是一类特殊的非线性模型,它们有明确的随机误差分布,把自变量的线性预测函数当做因变量的估计值。广义线性模型在前提条件上的限制进一步放松,要求自变量可以用线性函数进行表达和因变量相互独立。