岭回归技术原理应用

岭回归技术原理应用

                作者:马文敏

岭回归分析及其SPSS实现方法

岭回归分析(RidgeRegression)是一种改良的最小二乘估计方法,它是用于解决在线性回归分析中自变量存在共线性的问题。什么?共线性是什么?共线性就是指自变量之间存在一种完全或良好的线性关系,进而导致自变量相关矩阵之行列式近似为0,导致最小二乘估计失效。此时统计学家就引入了k个单位阵(I),使得回归系数可估计。

岭回归分析就是用来解决多重共线性的问题。在医学科研的实际工作中,往往不需要创造算法,会用算法就行。下面是我找到的关于SPSS的例子。

某研究者想了解B超下胎儿的身长、头围、体重与胎儿受精周数之间的关系,即B超测得上述参数之后,用它们来推测胎儿的受精时长(周数)。我们很容易想到用多重线性回归来解决,以胎儿周数为因变量,以身长、头围和体重为因变量,做回归之后我们发现,结果如下:

对比发现头围尽然与周龄成负相关。这个方程肯定是有问题,这时候岭回归该发挥作用了。

 

岭回归分析在SPSS中没有可供点击的对话框,所以需要写一段超级简单的语法来调用SPSS的宏。SPSS公司没有提供人机交互的对话框,于是他们提供了一段宏程序,存储路径为“SPSS安装目录\SPSS\Statistics\22\Samples\Simplified Chinese\Ridge regression.sps”。

 

我们在做岭回归分析时,只需要调用它就行,调用语法如下(*后面是注释):

想要调用需在SPSS目录下修改权限,修改权限一般默认不给用户修改权限,需要用户自己去改

进行上述运算后,可以得到下几个结果:1、不同K值下自变量的标准化回归系数;2、岭轨图,3、R方的变化图。

怎样选择结果呢?我们需要选择一定K值下的标准化回归系数,选择的原则是各个自变量的标准化回归系数趋于稳定时的最小K值。因为K值越小引入的单位矩阵就少,偏差就小。我们把岭迹图放大,就可以看出k大约在0.05时,各个自变量的标准化回归系数就趋于稳定了。如图:

通过上述分析就可以分析出岭回归各自变量的标准化回归系数,同时我们可以获得t值和p值但是SPSS原始的宏不提供p值的计算,所以我们需要在SPSS的宏中加入这一句话“. computeppp=2*(1-tcdf(abs(ratio),n-nv-1)).”,这句话就是计算p值的。同时我们对print结果略作修改。这句话加在下图的位置上

修改完宏之后,将其中的k改为等于0.05,SPSS就会做k=0.05时的岭回归分析,并给出各个自变量的检验结果,结果如下

回归分析是目前气象统计分析中最常用的方法,回归分析是最基本的分析,逐步分析可以帮助我们建立最优的回归模型。

详情参考:https://www.cnblogs.com/GMGHZ971322/

文章来源:---嗵嗵e妍

          ---百度文献

时间: 2024-09-29 14:45:37

岭回归技术原理应用的相关文章

R语言统计分析技术研究——岭回归技术的原理和应用

岭回归技术的原理和应用 作者马文敏 岭回归分析是一种专用于共线性分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价获得回归系数更为符合实际,更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法. 回归分析:他是确立两种或两种以上变量间相互依赖的定量关系的一种统计分析法.运用十分广泛,回归分析按照设计量的多少,分为一元回归和多元回归分析,按照因变量的多少,可分为简单回归分析和多重回归分析,按照自变量和因变量的多少类型可分为线性回归

python Ridge 回归(岭回归)的原理及应用

岭回归的原理: 首先要了解最小二乘法的回归原理 设有多重线性回归模型   y=Xβ+ε  ,参数β的最小二乘估计为 当自变量间存在多重共线性,|X'X|≈0时,设想|X'X|给加上一个正常数矩阵(k>0) 那么|X'X|+kI 接近奇异的程度就会比接近奇异的程度小得多.考虑到变量的量纲问题, 先要对数据标准化,标准化后的设计矩阵仍用X表示,定义称为的岭回归估计,其中, k称为岭参数.由于假设X已经标准化,所以就是自变量样本相关阵.y可以标准化也可以未标准化, 如果y也经过标准化,那么计算的实际是

岭回归——减少过拟合问题

什么是过拟合?在训练假设函数模型h时,为了让假设函数总能很好的拟合样本特征对应的真实值y,从而使得我们所训练的假设函数缺乏泛化到新数据样本能力. 怎样解决过拟合 过拟合会在变量过多同时过少的训练时发生,我们有两个选择,一是减少特征的数量,二是正则化,今天我们来重点来讨论正则化,它通过设置惩罚项让参数θ足够小,要让我们的代价函数足够小,就要让θ足够小,由于θ是特征项前面的系数,这样就使特征项趋近于零.岭回归与Lasso就是通过在代价函数后增加正则化项. 多元线性回归损失函数: 岭回归回归代价函数:

机器学习-正则化(岭回归、lasso)和前向逐步回归

机器学习-正则化(岭回归.lasso)和前向逐步回归 本文代码均来自于<机器学习实战> 这三种要处理的是同样的问题,也就是数据的特征数量大于样本数量的情况.这个时候会出现矩阵不可逆的情况,为什么呢? 矩阵可逆的条件是:1. 方阵 2. 满秩 X.t*X必然是方阵(nxmxmxn=nxn,最终行列数是原来的X矩阵的列数,也就是特征数),但是要满秩的话,由于线性代数的一个结论,X.t*X的秩不会比X大,而X的秩是样本数和特征数中较小的那一个,所以,如果样本数小于特征数的话,X.t*X就不会是可逆的

你应该掌握的七种回归技术

转自:http://www.iteye.com/news/30875 英文原文:https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ [编者按]回归分析是建模和分析数据的重要工具.本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归.逻辑回归.多项式回归.逐步回归.岭回归.套索回归.ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素. 什么

【深度】深入大型网站技术原理-序-0.0.1-SNAPSHOT

目录 随写作进程迭代,如果在公众号上看到本文,可以点击阅读原文查看最新目录. 序 以下为序 0.序 之前的文章谈到了未来几年将以自我认知核心,从专业的深度和通用力的广度来全面<构建个人的知识体系>的想法. 最近的确一直在写作,但包括一系列多元思维模型在内的文章都是认知方面的内容,在自己的专业领域上还没怎么投入,所以从这篇文章开始,在未来的三到六个月之内,我将写一本自己专业领域的电子书. 毕竟工作是互联网开发,公司也是大型互联网企业,所以主题就定为<大型网站技术原理>.以过去两年多的

岭回归与Lasso回归

线性回归的一般形式 过拟合问题及其解决方法 问题:以下面一张图片展示过拟合问题 解决方法:(1):丢弃一些对我们最终预测结果影响不大的特征,具体哪些特征需要丢弃可以通过PCA算法来实现:(2):使用正则化技术,保留所有特征,但是减少特征前面的参数θ的大小,具体就是修改线性回归中的损失函数形式即可,岭回归以及Lasso回归就是这么做的. 岭回归与Lasso回归 岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种

区块链教程区块链信息安全3椭圆曲线加解密及签名算法的技术原理一

区块链教程区块链信息安全3椭圆曲线加解密及签名算法的技术原理一,2018年下半年,区块链行业正逐渐褪去发展之初的浮躁.回归理性,表面上看相关人才需求与身价似乎正在回落.但事实上,正是初期泡沫的渐退,让人们更多的关注点放在了区块链真正的技术之上. 椭圆曲线加解密及签名算法的技术原理及其Go语言实现 椭圆曲线加密算法,即:Elliptic Curve Cryptography,简称ECC,是基于椭圆曲线数学理论实现的一种非对称加密算法.相比RSA,ECC优势是可以使用更短的密钥,来实现与RSA相当或

岭回归和lasso回归(转)

回归和分类是机器学习算法所要解决的两个主要问题.分类大家都知道,模型的输出值是离散值,对应着相应的类别,通常的简单分类问题模型输出值是二值的,也就是二分类问题.但是回归就稍微复杂一些,回归模型的输出值是连续的,也就是说,回归模型更像是一个函数,该函数通过不同的输入,得到不同的输出. 那么,什么是线性回归,什么是非线性回归呢? 线性回归与非线性回归 前面说了,我们的回归模型是一个函数是吧,那么线性回归就是模型函数是由若干个基本函数线性加权得到的函数.也就是每一个基本函数前面都有一个权值来调和自己对