线性模型(1)

在方差分析中,我们初步介绍了线性模型的思想,实际上,线性模型只是方法分析的模型化,其统计检验仍然是依照方差分解原理进行F检验。

线性模型作为一种非常重要的数学模型,根据分析目的可以分为线性回归模型和方差分析模型,根据表现形式又可以分为一般线性模型、广义线性模型、一般线性混合模型、广义线性混合模型。

下面我们就根据分析目的来介绍线性模型

一、方差分析模型:

使用线性模型进行方差分析的时候涉及一些基本概念:

===============================================

(1)因素与水平
因素也称为因子,在实际分析中,因素就是会对结果产生影响的变量,通常因素都是分类变量,如果用自变量和因变量来解释,那么因素就是自变量,结果就是因变量。

一个因素下面往往具有不同的指标,称为水平,表现在分类变量上就是不同类别或取值范围,例如性别因素有男、女两个水平,有时取值范围是人为划分的。

(2)单元
因素各水平之间的组合,表现在列联表中就是某个单元格,有些实验设计如拉丁方设计,单元格为空或无。

(3)元素
指用于测量因变量值的最小单位,其实也就是具体的测量值。根据具体的实验设计,列联表的一个单元格内可以有一个或多个元素,也可能没有元素。

(4)均衡
如果一个实验设计中任一因素的各水平在所有单元格中出现的次数相同,且每个单元格内的元素数也相同,那么该实验就是均衡的。不均衡的实验设计在分析时较为复杂,需要对方差分析模型作特别的设置才行。

(5)协变量
有时,我们在分析某些因素的影响时,需要排除某个因素对因变量的影响,这个被排除的因素被称为协变量,

(6)交互作用
如果一个因素的效应大小在另一个因素的不同水平下表现的明显不同,则说明这两个因素之间存在交互作用。交互作用是多因素分析时必须要做的,这样分析的结果才会全面。

(7)固定因素和随机因素
是因素的两个种类,固定因素是指该因素的所有水平,在本次分析中全部出现,从分析结果就可以获知全部水平的情况。而随机因素相反,指该因素的所有水平在本次分析中并没有全部出现,如果重复本次分析,可能得到的因素水平完全不同。这样的因素称为随机因素。

固定因素和随机因素并没有严格区别,而是需要根据分析目的进行指定,一个因素有可能是固定因素也有可能是随机因素,如果将某个因素指定为固定因素,那么结论就不应该“泛化”到全部水平,否则,就应该将其指定为随机因素。固定因素和随机因素的处理方法是不一样的,显然,如果把随机因素误当做固定因素来处理,结果肯定也会是错的。
====================================================
方差分析的适用条件:

(1)独立性:
要求样本中的各元素相互独立,之间没有相关性,来自真正的随机抽样,只有这样才能保证差异具有可分解性,但是对于重复测量的实验设计,由于测量数据来自同一个体,因此元素之间存在相关性,需要使用专门的重复测量方差分析模型。

(2)正态性
由于各组的随机误差项被设定服从均值为0,标准差为某个定值的正态分布,因此模型要求各单元格的残差也要服从正态分布

(3)方差齐性
由于各组的随机误差项被设定为服从正态分布,因此模型要求各单元格要满足方差齐,也就是变异程度相同,这样才具有可比性。

(4)各组协变量与因变量关系是线性的
这是在协变量分析中要求的假定

(5)各分组回归斜率相等
这是在协变量分析中要求的假定
==================================================
方差分析按处理因素(也可简单称为自变量)个数的多少,分为单因素方差分析、双因素方差分析、多因素方差分析等

方差分析按分析指标(也可简单称为因变量)的个数多少,分为一元方差分析(ANOVOA)、多元方差分析(MANOVOA)

多自变量多因变量的方差分析也可以简单称为多元方差分析,当然更精确的称为“X因素Y元方差分析”,如二因素二元方差分析。

====================================================

1.单因素方差分析

单因素方差分析指的是只有一种处理因素在影响结果,或者说只有一个自变量在影响因变量的情况,

单因素方差分析比较简单,我们在方差分析中已经有过详细介绍。在此,只做回顾:

设任何一次实验结果都可以表示成如下形式:

Yi=μ+εi

其中Yi是第i次实验的实际结果,μ是该结果的最佳估计值,其实就是总体均值,εi是均值和实际结果的偏差也就是随机误差,为了方便推导,我们假定εi服从均值为0,标准差为某个定值的正态分布,这也是前面讲到的方差分析的适用条件之一。

我们把以上形式按照方差分析进行推广,假设我们要研究几种水平之间的差异,每种水平抽取一定样本并收集相关数据,那么模型公式可以表示为:

Yij=μi+εij

其中Yij是第i组水平的第j个样本的实际结果,μi是第i组的均值,εij是第i组第j个样本相对于实际结果的偏差。我们同样假定εi服从均值为0,标准差为某个定值的正态分布,如果这i组水平没有差异,则Yij应等于总体均值加上随机误差项。为了方便统计推断,我们又把模型公式改为如下形式:

Yij=μ+αi+εij

其中μ表示不考虑分组时的总体均值,αi表示第i组的附加效应,即在第i组时的均值改变情况,例如

αi=10,表示第i组的均值要比总体均值多10,如果这i组均值并无差异,那么α1=α2=α3=.....=αi,反之则不等,据此我们可以建立假设:

H0:i取任意值时,αi=0
H1:i取任意值时,至少有一个αi<>0

结合差异分解的方差分析思路,我们发现αi实际上就是处理因素导致的差异。

2.两因素及多因素方差分析

当处理因素多于1个的时候,我们不但要考虑某个因素的影响,还要考虑多个因素之间的交互作用,因此模型公式还需要扩展,以两因素方差为例,模型公式为:

Yij=μ+αi+βj+γij+εijk

其中μ表示不考虑分组时的总体均值,
αi表示第i组的附加效应
βj表示第j组的附加效应
γij表示两个因素的交互作用产生的效应

如果我们要分析αi对均值有无影响,需要以αi建立假设,即

H0:i取任意值时,αi=0
H1:i取任意值时,至少有一个αi≠0

如果我们要分析βj对均值有无影响,需要以βj建立假设,即
H0:i取任意值时,βj=0
H1:i取任意值时,至少有一个βj≠0

3.协方差分析

有时我们在进行方差分析的时候,遇到某些因素会对实验结果产生影响,但是这些因素在实验设计阶段无法避免,只有在分析阶段加以控制,这种需要控制的因素称为协变量,需要分析带有协变量的方差分析称为协方差分析。

协方差分析的基本思想是:在做多组均值比较之前,用直线回归方法找出各组均值与协变量之间的数量关系,求出当各组协变量相等的时候的均值,即修正均值,然后利用方差分析比较修正均值之间的差别,从而达到排除协变量对结果的影响的目的。

协方差分析的适用条件除了基本的独立性、正态性、方差齐性之外,还增了两点是:

(1)各组协变量与因变量关系是线性的
(2)各分组回归斜率相等

由上我们看出,协方差分析需要借助线性回归才能进行分析。

4.多元方差分析(MANOVOA)

多元方差分析,这里的多元指的是多个因变量,多个因变量的方差分析不能简单的拆分成多个单因变量,对于此类多因变量资料的分析,一般有两种方法:一种是因子分析,另一种就是多元方差分析。

单因素方差分析不能分析出因素对多个因变量的协方差的影响。在考虑多个因变量时,多元方差分析将多个因变量看做一个整体(联合分布),从因变量的任意线性组合,发现不同总体的最大组间差异,即自变量对多个因变量整体的影响。

多元方差分析也是基于变异分解的思路,但是和一元方差分析所不同的是:一元方差分析是对组间均方与组内均方进行比较,而多元方差分析则是组间方差协方差矩阵和组内方差协方差矩阵进行比较。换句话说:一元方差分析是对方差(离均差平方和)的分解,多元方差分析是对方差-协方差(离均差平方和-离均差积和)的分解。

多元方差分析也有一些适用条件,总的来说和一元方差分析类似,但是有些略有不同

(1)各因变量的联合分布服从多元正态分布。对于这一点,要求并不高,实际上可以近似为各因变量分别服从正态分布即可,当各因变量服从多元正态分布时,每个因变量也必然服从正态分布,但是只要有一个因变量不服从正态分布,那么这几个因变量的联合分布肯定不服从多元正态分布。
(2)各观察对象间相互独立
(3)各组观察对象因变量的方差协方差矩阵相等,也就是方差齐性要求
(4)各因变量间存在一定的关联,这可以从专业或研究目的的角度进行判断。

以上四点中,对于第三点方差齐性要求较高,并且对样本量也有一定要求,不仅总样本量要大,而且各个单元格中的样本量也应较大。

多元方差分析中,如果自变量的个数多于两个,也可以进一步对自变量间的交互作用进行分析,这和一元方差分析相同。

如果还想分析处理因素对哪些因变量有影响或影响程度如何,则可以通过对每个因变量分别进行单因素方差分析来进行处理。并且,当某个处理因素有统计学意义的时候,还可以进行两两比较进一步分析是那几个水平间的哪几个因变量差别有统计学意义,这和单因素方差分析一样。

多元方差分析有一些自己的统计量

(1)SSCP:离差平方和与离均差积和矩阵
(2)W=每个因变量的离差矩阵之和(多元方差的组内变异)
(3)T=总离差矩阵
(4)B=T-W=组间离差矩阵

多元方差的检验方法主要有以下几种:

(1)Roy 检验: Roy检验基于HE-1 的最大特征根。

(2)Lawley和Hotelling‘s trace检验:统计量为 T=trace(BW-1)

(3)Pillai‘s trace检验:统计量为V=trace[B(B+W)-1]

(4)Roy‘s第二检验:Roy的另一个依靠U=|B(B+W)-1|的统计量

(5)Wilks似然比检验:由Wilks依据Λ=|W|/|B+W|导出的统计量

以上检验中:
<1>当四种检验结果不同时,需要进一步找出原因
<2>当四种检验结果相同时,推荐使用Wilks似然比检验,通常情况下,Wilks似然比检验表现最好
<3>Wilks似然比检验、Lawley和Hotelling‘s trace检验、Pillai‘s trace检验的功效是近似的,而Roy‘s检验只有在处理差异非常大的时候功效较高,其余时候比前三种方法功效低。
<4>当模型建立的前提条件不满足时(如轻微偏离多元正态),Pillai‘s trace检验最为稳健。

时间: 2024-08-05 09:22:05

线性模型(1)的相关文章

西瓜书第三章 线性模型

读书笔记 周志华老师的<机器学习> 因为边看边记,所以写在随笔里,如果涉及版权问题,请您联系我立马删除,[email protected] 3.1 基本形式 给定d个属性描述的示例 x = (x_1;x_2;...;x_3), 其中x_i是X在第i个属性上的取值,线性模型视图学得一个通过属性的线性组合来进行预测的函数,即 f(x) = w_1*x_1 + w_2*x_2 + ... + w_d*x_d + b, 向量形式 其中 w = (w_1;w_2;...;w_d). w直观表达了各属性在

从指数分布族去推导出广义线性模型

指数分布族的定义: 若一类概率分布可以写成如下形式,那么它就属于指数分布族: η - 自然参数,通常是一个实数 T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识) 对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布.极限定理得) 记录一下几个指数分布族以及它们的特征: 正态分布(高斯分布)--总体噪音(由中心极限定理得) 伯努利分布--逻辑回归(对01问题建模) 多项式分布--K种结果的事情进行建模 泊松

1.1.广义线性模型

下面介绍的是一组用于回归的方法,这些方法的目标值是输入变量的线性组合.用作为预测值. 贯穿模块,我们指定向量为coef_(系数),为intercept_(截距). 要使用广义线性模型实现分类,详见Logistic回归. 1.1.1.常规最小二乘法 线性回归拟合以系数最小化可观测到的数据的响应与线性模型预测的响应的残差和的平方,用数学公式表示即: LinearRegression 对数组X,y使用fit方法,并将结果的系数存放在coef_中: >>> from sklearn import

线性模型(3)——多重线性回归模型

前面介绍了简单线性回归模型,接下来讲多重线性回归模型. 简单线性回归是针对一个因变量和一个自变量之间的线性回归关系,而多重线性回归是指一个因变量和多个自变量之间的线性回归关系.相对于简单线性回归,多重线性回归更具有实际意义,因为在实际生活中,多因素相互作用非常普遍,同时对因变量造成影响的往往不止一个自变量. 多重线性回归主要解决的问题是1.估计自变量与因变量之间的线性关系(估计回归方程)2.确定哪些自变量对因变量有影响(影响因素分析)3.确定哪个自变量对因变量最影响最大,哪个最小(自变量重要性分

斯坦福《机器学习》Lesson4感想-------2、广义线性模型

在前面几篇中分类问题和回归问题里涉及到的伯努利分布和高斯分布都是广义线性模型(Generative Linear Models.GLMs)的特例.下面将详细介绍广义线性模型. 1.指数族 我们可以将一些分布总结到一个指数族中.指数族可表示为: η是指naturalparameter/canonical parameter,T (y)是指sufficientstatistic, a(η)是指logpartition function.T.a和b的选择决定了分布族,η的改变会得到这个分布族里的不同分

加州理工学院公开课:机器学习与数据挖掘_线性模型

这一课时主要是讲述了线性模型的一些处理. 包括: 1.输入数据的表示(Input Representation) 2.线性分类(Linear Classification) 3.线性回归(Linear Regression) 4.非线性模型转换(Nonlinear Transformation) 作者认为,如果要测试某个模型的可用性,做好就是用真实数据. 为了讲解线性模型如何应用,作者利用线性模型来解决邮局数据辨别问题: 由于不同的人有不同的书写习惯,对于同一个数字其书写形式可能各异,但是其基本

R语言实战(八)广义线性模型

本文对应<R语言实战>第13章:广义线性模型 广义线性模型扩展了线性模型的框架,包含了非正态因变量的分析. 两种流行模型:Logistic回归(因变量为类别型)和泊松回归(因变量为计数型) glm()函数的参数 分布族 默认的连接函数 binomial (link = "logit") gaussian (link = "identity") gamma (link = "inverse") inverse.gaussian (lin

指数分布族与广义线性模型

整理一下之前所学过的关于回归问题的思路: 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格: 学习过程:构建模型h(θ): 线性回归:最小二乘法.梯度下降法.线性模型的概率解释: 局部加权回归:带权重的线性回归.权值的钟形函数: 逻辑回归:分类方法.梯度上升法.牛顿法.引出感知机学习算法: 广义线性模型:指数分布族.给定概率分布推导出线性模型. 这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知: 在线性回归模型的概率解释中假设: 在逻辑回归模型的推导中假

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

线性模型

线性回归.线性分类.逻辑回归——线性模型线性回归和逻辑回归:https://www.evernote.com/shard/s146/sh/bf0d0a08-d5c5-4dc9-b70f-fa6374b9ceae/14e34bc9e8e518b1a5cc17fc585d75fc线性分类模型:http://www.douban.com/note/325298034/线性回归-理论篇:http://blog.csdn.net/pakko/article/details/36641561机器学习 ---