岭回归技术原理应用
作者:马文敏
岭回归分析及其SPSS实现方法
岭回归分析(RidgeRegression)是一种改良的最小二乘估计方法,它是用于解决在线性回归分析中自变量存在共线性的问题。什么?共线性是什么?共线性就是指自变量之间存在一种完全或良好的线性关系,进而导致自变量相关矩阵之行列式近似为0,导致最小二乘估计失效。此时统计学家就引入了k个单位阵(I),使得回归系数可估计。
岭回归分析就是用来解决多重共线性的问题。在医学科研的实际工作中,往往不需要创造算法,会用算法就行。下面是我找到的关于SPSS的例子。
某研究者想了解B超下胎儿的身长、头围、体重与胎儿受精周数之间的关系,即B超测得上述参数之后,用它们来推测胎儿的受精时长(周数)。我们很容易想到用多重线性回归来解决,以胎儿周数为因变量,以身长、头围和体重为因变量,做回归之后我们发现,结果如下:
对比发现头围尽然与周龄成负相关。这个方程肯定是有问题,这时候岭回归该发挥作用了。
岭回归分析在SPSS中没有可供点击的对话框,所以需要写一段超级简单的语法来调用SPSS的宏。SPSS公司也没有提供人机交互的对话框,于是他们提供了一段宏程序,存储路径为“SPSS安装目录\SPSS\Statistics\22\Samples\Simplified Chinese\Ridge regression.sps”。
我们在做岭回归分析时,只需要调用它就行,调用语法如下(*后面是注释):
想要调用需在SPSS目录下修改权限,修改权限一般默认不给用户修改权限,需要用户自己去改
进行上述运算后,可以得到以下几个结果:1、不同K值下自变量的标准化回归系数;2、岭轨图,3、R方的变化图。
怎样选择结果呢?我们需要选择一定K值下的标准化回归系数,选择的原则是各个自变量的标准化回归系数趋于稳定时的最小K值。因为K值越小引入的单位矩阵就少,偏差就小。我们把岭迹图放大,就可以看出k大约在0.05时,各个自变量的标准化回归系数就趋于稳定了。如图:
通过上述分析就可以分析出岭回归各自变量的标准化回归系数,同时我们可以获得t值和p值但是SPSS原始的宏不提供p值的计算,所以我们需要在SPSS的宏中加入这一句话“. computeppp=2*(1-tcdf(abs(ratio),n-nv-1)).”,这句话就是计算p值的。同时我们对print结果略作修改。这句话加在下图的位置上
修改完宏之后,将其中的k改为等于0.05,SPSS就会做k=0.05时的岭回归分析,并给出各个自变量的检验结果,结果如下
回归分析是目前气象统计分析中最常用的方法,回归分析是最基本的分析,逐步分析可以帮助我们建立最优的回归模型。
详情参考:https://www.cnblogs.com/GMGHZ971322/
文章来源:---嗵嗵e妍
---百度文献