从统计学看线性回归(2)——一元线性回归方程的显著性检验

一、σ2 的估计

  因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。

  通过残差平方和(误差平方和)

            (1)

又∵                                (2)

∴                                                        (3)

其中 为响应变量观测值的校正平方和。残差平方和有n-2 个自由度,因为两个自由度与得到的估计值相关。

                                         (4)

∴  σ2的无偏估计量:

                                         (5)

为残差均方, 的平方根称为回归标准误差,与响应变量y 具有相同的单位。

因为σ2取决于残差平方和, 所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值的实用性。因为由回归模型残差算得,称σ2的估计值是模型依赖的。

二、回归方程的显著性检验

  目的:检验 是否真正描述了变量 y 与 x 之间的统计规律性。

  假设:正态性假设 (方便检验计算)

  1. t 检验

  用t 检验来检验回归系数的显著性。采用的假设如下:

原假设     H0 : β1 = 0   (x 与 y 不存在线性关系)

对立假设  H1 : β1 ≠ 0

  回归系数的显著性检验就是要检验自变量 x 对因变量 y 的影响程度是否显著。下面我们分析接受和拒绝原假设的意义。

  (1)接受 H0 : β1 = 0  (x 与 y 不存在线性关系)

  此时有两种情况,一种是无论 x 取值如何, y 都在一条水平线上下波动,即,如下图1,另一种情况为, x 与 y 之间存在关系,但不是线性关系,如图2。

图  1

图 2

  (2)拒绝 H0 : β1 = 0  (x 对解释 y 的方差是有用的)

  拒绝原假设也有两种情况,一种是直线模型就是合适的,如图 3,另一种情况为存在 x 对 y 的线性影响,也可通过 x 的高阶多项式得到更好的结果,如图 4。

图 3

图 4

  接下来对其检验。

∵                               (6)

  ∴ 当H0 : β1 = 0 成立时,有:

                         (7)

  在零附近波动,构造 t 统计量:

                   (8)

  若原假设H0 : β1 = 0 成立,则 ,计算|t|,

|t| ≥ tα/2  , 拒绝 H0

|t| < tα/2  , 接受 H0

  2.F 检验(方差分析)

  F检验用于检验回归方程的显著性。

  方差分析法检验回归显著性,方差分析以分割响应变量 y 的总变异性为基础。

∵   

∴   

∵  , 

∴ 

∴                  (9)

  其中 称为观测值的校正平方和或总称为平方和(SST: sum of squares for total, , Lyy),其度量了观测值中总的变异性。刻画 y 的波动程度

  称为模型平方和(或回归平方和),记为SSR(R: regression),,。其刻画由 x 的波动引起的 y 波动的部分

  是残差平方和(误差平方和),记为SSE(E: error), , 。其刻画了未加控制的因素引起 y 波动的部分

∴                    (10)

  下来分析它们的自由度。因为 约束 使丢掉了一个自由度,所以个自由度;因为完全由一个参数确定,所以个自由度;因为估计β0与β1时对离差施加了两个约束,所以有n-2个自由度。

∵ 自由度有可加性

∴                    (11)

  因为总平方和反映因变量 y 的波动程度或称不确定性,在建立了 y 对 x 的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两部分,其中SSR是由回归方程确定的,也就是由自变量 x 的波动引起的,SSE是不能用自变量解释的波动,是由 x 之外的未加控制的因素引起的。这样,总平方和SST 中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE,从而,回归平方和SSR越大,回归的效果就越好,可以据此构造F 检验统计量为

                       (12)

  在正态假设下,原假设H0 : β1 = 0 成立时,,当时,拒绝原假设。

  3.相关系数的显著性检验

  因为一元线性回归方程讨论的是变量 x 与变量 y 之间的线性关系,所以变量 x 与 y 之间的相关系数来检验回归方程的显著性。用相关系数来反应 x 与 y 的线性关系的密切程度。

  x 与 y 的简单相关系数:

               (13)

r的绝对值小于等于1:|r| ≤ 1

  根据相关系数的检验表,通常当|r| 大于表中α=0.05相应的值时,认为 x 与 y 有显著的线性关系。

  缺点:接近于1的程度与数据组数 n 有关(n 较小时, |r| 接近于1,n 较大时,|r|易偏小)

  4.样本决定系数

  由公式(10)可知,越大,线性回归越好,所以定义样本决定系数r2: 回归平方和与总离差平方和之比。

               (14)

∵   

∴                    (15)

  其中最右边的 r2 表示相关系数的平方。

  决定系数 r2 是一个回归直线与样本观测值拟合优度(Goodness of Fit, 指回归直线对观测值的拟合程度)的相对指标,反映了因变量的波动中能用自变量解释的比例。

  0 ≤  r2  ≤ 1,r2  越接近于 1 ,拟合优度越好。

  那么r2 的值比较小的时候反应了什么情况呢?

  r2 小的可能原因:

  ① 线性回归不成立,y 与 x 是曲线关系,应用曲线回归;

  ② y 与 x 之间符合线性模型,误差项方差σ2大,导致r2 小(n 很大时,线性回归显著)

  在对自变量有重复观测时可以通过检验正确区分以上两种不同情况,或者用残差分析的方法。

相关系数和样本决定系数:

相关系数是建立在相关分析的理论基础上,研究两个变量 x 与 y 之间的线性相关关系;样本决定系数是建立在回归分析的理论基础之上,研究非随机变量 x 对 y 的解释程度。

  5.三种检验的关系

  对于一元线性回归来说,回归系数显著性的 t 检验,回归方程显著性的 F 检验,相关系数显著性的 t 检验,这三种检验是等价的。相关系数显著性的 t 检验与回归系数显著性的 t 检验是完全相等的,式(12)F统计量则是这两个 t 统计量的平方。对于一元线性回归只需要做一种检验即可,而对于多元线性回归,这三种检验考虑的问题不同,是三种不同的检验,并不等价。

原文地址:https://www.cnblogs.com/datamining-bio/p/9502033.html

时间: 2024-10-13 21:41:40

从统计学看线性回归(2)——一元线性回归方程的显著性检验的相关文章

一元线性回归分析及java实现

http://blog.csdn.net/hwwn2009/article/details/38414911 一元线性回归分析及java实现 2014-08-07 11:02 1072人阅读 评论(0) 收藏 举报  分类: DataMining(17)  一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系.通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想.方法和应用. 一.问题的提出 例2-1-1 

一元线性回归分析笔记

1.定义: 利用已有样本,产自拟合方程,从而对(未知数据)进行预测. 2.用途: 预测,合理性判断. 3.分类: 线性回归分析:一元线性回归,多元线性回归,广义线性(将非线性转化为线性回归,logic回归) 非线性回归分析 4.困难: 变量选取,多重共线性,观察拟合方程,避免过度拟合 5.关系: 函数关系:确定性关系,y=a*x+b 相关关系:非确定性关系 相关系数:正数为正相关(同增同长),负数为负相关(同增同减) 6.一元线性回归模型: 1) 若X与Y间存在着较强的相关关系,则我们有Y≍a+

HDU3579 Hello Kiki【一元线性同余方程组】

题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=3579 题目大意: Kiki有X个硬币,她用不同的方式数了N次,每次她把硬币分成大小相等的组,记录每次一组硬币 的个数Mi和数完最后剩余的硬币数Ai.那么问题来了:总共有多少枚硬币? 思路: 典型的一元线性同余方程组X = Ai(mod Mi)求解.题目要求输出最小正整数解,则如果求得同余 方程组的解为0,那么答案就是所有Mi的最小公倍数. AC代码: #include<iostream> #in

POJ2891 Strange Way to Express Integers【一元线性同余方程组】

题目链接: http://poj.org/problem?id=2891 题目大意: 选择k个不同的正整数a1.a2.-.ak,对于某个整数m分别对ai求余对应整数ri,如果 适当选择a1.a2.-.ak,那么整数m可由整数对组合(ai,ri)唯一确定. 若已知a1.a2.-.ak以及m,很容易确定所有的整数对(ai,ri),但是题目是已知a1. a2.-.ak以及所有的整数对(ai,ri),求出对应的非负整数m的值. 思路: 题目可以转换为给定一系列的一元线性方程 x ≡ r1( mod a1

POJ 1061 - 青蛙的约会 - [exgcd求解一元线性同余方程]

先上干货: 定理1: 如果d = gcd(a,b),则必能找到正的或负的整数k和l,使ax + by = d. (参考exgcd:http://www.cnblogs.com/dilthey/p/6804137.html) 定理2: 一元线性同余方程ax ≡ n (mod b) 有解,当且仅当gcd(a,b)|n. 也就是说,解出了ax+by=gcd(a,b),就相当于解出了ax≡n(mod b) (而且只要满足gcd(a,b)|n,就一定有解) 定理3: 若gcd(a,b) = 1,则方程ax

POJ 2115C Looooops[一元线性同余方程]

一元线性同余方程 定义: $a$,$b$是整数,$m$是正整数,形如 $ax\equiv b\,(mod\, m)$ 且$x$是未知数的同余式称作一元线性同余方程. 对于方程$ax\equiv b\,(mod\, m)$, 可以把它写成二元一次不定式$ax+my=b$.要想方程有解,必须满足$(a,m)\mid d$. 这时利用扩展欧几里得求出$ax+my=(a,m)$ 的一个特解,在乘上$b/(a,m)$就是我们所要的一个特解. 利用公式: $ax_0+my_0=d=ax+my\Rightar

求解一元线性同余方程组模版

解法:直接上模版. 扩展欧几里德的模版: typedef long long LL; LL ex_gcd(LL a,LL b,LL &x,LL &y) { if(b==0) { x=1; y=0; return a; } LL d=ex_gcd(b,a%b,x,y); LL t=x; x=y; y=t-a/b*y; return d; } 求解一元线性同余方程组模版: LL solve(LL n) { LL a1,r1,a2,r2; LL a,b,c,r,x,y; bool ifhave=

HDU1573:X问题(解一元线性同余方程组)

题目:http://acm.hdu.edu.cn/showproblem.php?pid=1573 题目解析;HDU就是坑,就是因为n,m定义成了__int64就WAY,改成int就A了,无语. 这题就是求解一元线性同余方程组的解满组小于正整数n的数目.最小正整数的解为X=(X*(c/d)%t+t)%t;  X=a1*X+r1;其中X为扩展欧几里得解出来的特解,这m个方程组的循环区间为lcm(a1,a2,a3...am),所以答案为(n-X)/lcm+1; #include <iostream>

HDU1573 X问题【一元线性同余方程组】

题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1573 题目大意: 求在小于等于N的正整数中有多少个X满足:X mod a[0] = b[0], X mod a[1] = b[1], X mod a[2] = b[2], -, X mod a[i] = b[i], - (0 < a[i] <= 10). 思路: 先求出数组b[]中所有数的最小公倍数lcm,再求解出该一元线性同余方程组在lcm范围内的解为a,题目要 求解x是小于等于N的正整数,则