论线性回归中残差图的重要性

Y1    X1    Y2    X2    Y3    X3    Y4    X4
8.04    10    9.14    10    7.46    10    6.58    8
6.95    8    8.14    8    6.77    8    5.76    8
7.58    13    8.74    13    12.74    13    7.71    8
8.81    9    8.77    9    7.11    9    8.84    8
8.33    11    9.26    11    7.81    11    8.47    8
9.96    14    8.1    14    8.84    14    7.04    8
7.24    6    6.13    6    6.08    6    5.25    8
4.26    4    3.1    4    5.39    4    12.5    19
10.84    12    9.13    12    8.15    12    5.56    8
4.82    7    7.26    7    6.42    7    7.91    8
5.68    5    4.74    5    5.73    5    6.89    8

数据集如上,用sas读入后再做简单线性回归,四个回归的模型都一样,残差平方和,负相关系数也一样

那么,是不是可以说这四组数据拟合的模型都正确呢?

我们画出其各自的散点图,如下

很明显,只有左上方的图才有用线性模型描述的可能性,其他的模型都不适合。

OK~,这里是简单线性模型,只有一个自变量,如果上升到多个自变量时,无法用肉眼从图形判别的我们该做什么呢?

这就是残差图大展身手的地方了(这里只选取残差和因变量进行作图)

proc reg data=regbook.anscombefour;
        model y1= x1;
    plot r.*p.;
        model y2= x2;
    plot r.*p.;
        model y3= x3;
    plot r.*p.;
        model y1= x1;
    plot r.*p.;
run; quit;

因为在这里不清楚如何用sas组合四幅图,所以就没贴出来,如果是线性模型,那么残差应该符合正态分布的假设,所以残差应该围绕0上下无规律波动,如下(y1*x1的残差图)

如果不是这种形状,就表明拟合的模型有问题,同理,残差和自变量在线性假设中也是独立的,也可以拿来进行检验。

时间: 2024-11-05 19:03:29

论线性回归中残差图的重要性的相关文章

线性回归中的前提如果

在谈线性回归模型的时候被问到,在线性回归中,有三个如果,是哪三个? 当时回答出来自变量x和因变量y之间是线性变化关系.也就是说,假设x进行线性变化的话,y也会有对应的线性变化. 提到数据样本的时候也答道了样本点之间要求是独立同分布的(依据MLE准则,假定对样本加上高斯白噪声e的情况下). 可是第三个终于还是没有答上来,面试官也没有再给提示,所以回来自己再查一下. LR的wiki页面(http://en.wikipedia.org/wiki/Linear_regression)中,有提到了LR的如

Hadoop 分析图中节点的重要性,求解图中节点三角形个数

Hadoop 求解无向图中节点的重要性,通过求解节点的三角形个数来展现: 求解图中节点重要性,并排序,在大数据,分布式处理大型图组织形式的数据时很重要,找出重要节点,并对重要节点做特殊处理是很重要的 下面讲解如何来求解 这篇文章分为三部分: 1,python生成无向图的邻接矩阵 2,python画出这个无向图 3,hadoop mapreduce 求解图中每个节点的三角形个数 关于hadoop求解矩阵相乘,请看之前的文章:http://blog.csdn.net/thao6626/article

测试oracle 11g cluster 中OLR的重要性

 测试oracle 11g cluster 中OLR的重要性 called an Oracle Local Registry (OLR): each node in a cluster has a local registry for node-specific resources 测试一:模拟olr异常丢失的情况: 这里首先将olr renam [[email protected] cdata]# mv vmrac2.olr vmrac2.olr.bak 然后尝试去启动crs [[emai

PTA数据结构与算法题目集(中文) 7-36 社交网络图中结点的“重要性”计算 (30 分)

PTA数据结构与算法题目集(中文)  7-36 社交网络图中结点的“重要性”计算 (30 分) 7-36 社交网络图中结点的“重要性”计算 (30 分) 在社交网络中,个人或单位(结点)之间通过某些关系(边)联系起来.他们受到这些关系的影响,这种影响可以理解为网络中相互连接的结点之间蔓延的一种相互作用,可以增强也可以减弱.而结点根据其所处的位置不同,其在网络中体现的重要性也不尽相同. “紧密度中心性”是用来衡量一个结点到达其它结点的“快慢”的指标,即一个有较高中心性的结点比有较低中心性的结点能够

浅谈多变量线性回归中的数据规范化

简单来说,它主要用来把所有特征值范围映射至同样的范围里面如(0,1).(-1,1).(-0.5,0.5)等. Feature scaling (数据规范化) 是数据挖掘或机器学习常用到的步骤,这个步骤有时对算法的效率和准确率都会产生巨大的影响. 对精度的影响:很明显,这个步骤的必要性要依赖于数据特征的特性,如果有>=2特征,并且不同特征间的值变化范围差异大,那就很有必要使用Feature scaling.比如说,在信用卡欺诈检测中,如果我们只使用用户的收入作为学习特征,那就没有必要做这个步骤.但

C语言中switch...case语句中break的重要性

在C语言中switch...case语句是经常用到的,下面我介绍一下在使用该语句时候需要注意的一个细节问题.话不多说,直接举例子: 例子1: switch(fruit) { case 1:printf("apple"); break; case 2:printf("banana"); break; case 3:printf("orange"); break; case 4:printf("pear"); break; cas

论互联网中“文笔”的重要性

又是有一段时间没有写文章了,可能是有的时候没有灵感,亦或是因为本文将要说的"文笔"不够所带来的自卑感. 我们从小学到高中,写了这么多年作文,但似乎真正需要写东西的时候却显得无比苍白. 今晚我想说一说文笔在互联网中的重要性. 我是个爱思考的人,喜欢总结周围的一些人和事,在互联网中,那些看上去光鲜亮丽的自媒体成功是有规律可循的.我们看到那些在SEO圈子里那些名人,依靠着自媒体支撑着的大咖,基于不凡的文笔才得以表现出他们的人格魅力.否则空有一肚子墨水也无人能知. 没错,文笔的水平将主导着你的

论前端设计中性能的重要性

前端性能的重要性 在我的web开发生涯里,大部分时候我都是作为一个后台工程师.这样一来,我投入了非常多的精力去研究.练习如何通过后台优化来提升项目产品的性能,诸如编译器选项,数据库索引,内存管理等.很多书都花大量篇幅来讲述如何在这些方面提高性能,很多人也进而在这方面的优化花了大量时间.说实话,很多WEB网页,真正花费在web服务器到终端用户的时间其实往往不超过整个响应时间的一两成.如果你真的想极大幅度地减少web页面的响应时间,你应该把注意力放在真正影响终端用户体验的另外八九成的内容上.那这80

HTTP参数中Etag的重要性

在研究tornado时,有个Etag比较好奇,从网上查询摘录如下: Etag在HTTP1.1中有介绍,主要的作用就是在(css file, image, javascript file)文件后面添加一个唯一的参数(相当于查询参数字符串),Etag有服务器端生成,并且随着文件的改变而改变,这样浏览器端就会只重新请求获取 Etag发生变化的文件,减少浏览器端数据的流量,加快浏览器的反应速度,重要的是减轻服务器端的压力,所以服务器端Etag的实现就比较重要了. 现在我们有个问题为什么要使用Etag呢?