岭回归

Ridge Regression岭回归

数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。

对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元(即对角线上的元素)上的元素很小,在计算时就会表现出病态的特征。

回归分析中常用的最小二乘法是一种无偏估计。

当X列满秩时,有

X+表示X的广义逆(或叫伪逆)。

当X不是列满秩,或者某些列之间的线性相关性比较大时,XTX的行列式接近于0,即XTX接近于奇异,计算(XTX)-1时误差会很大。此时传统的最小二乘法缺乏稳定性与可靠性。

岭回归是对最小二乘回归的一种补充,它损失了无偏性,来换取高的数值稳定性,从而得到较高的计算精度。

当XTX的行列式接近于0时,我们将其主对角元素都加上一个数k,可以使矩阵为奇异的风险大降低。于是:

     (I是单位矩阵)

随着k的增大,B(k)中各元素bi(k)的绝对值均趋于不断变小,它们相对于正确值bi的偏差也越来越大。k趋于无穷大时,B(k)趋于0。b(k)随k的改变而变化的轨迹,就称为岭迹。实际计算中可选非常多的k值,做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定k值了。

X不满足列满秩,换句话就是说样本向量之间具有高度的相关性(如果每一列是一个向量的话)。遇到列向量相关的情形,岭回归是一种处理方法,也可以用主成分分析PCA来进行降维。

时间: 2024-10-09 17:32:23

岭回归的相关文章

岭回归和lasso回归(转)

回归和分类是机器学习算法所要解决的两个主要问题.分类大家都知道,模型的输出值是离散值,对应着相应的类别,通常的简单分类问题模型输出值是二值的,也就是二分类问题.但是回归就稍微复杂一些,回归模型的输出值是连续的,也就是说,回归模型更像是一个函数,该函数通过不同的输入,得到不同的输出. 那么,什么是线性回归,什么是非线性回归呢? 线性回归与非线性回归 前面说了,我们的回归模型是一个函数是吧,那么线性回归就是模型函数是由若干个基本函数线性加权得到的函数.也就是每一个基本函数前面都有一个权值来调和自己对

用R建立岭回归和lasso回归

1 分别使用岭回归和Lasso解决薛毅书第279页例6.10的回归问题 例6.10的问题如下: 输入例题中的数据,生成数据集,并做简单线性回归,查看效果 cement <- data.frame(X1 = c(7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10), X2 = c(26,     29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), X3 = c(6, 15, 8, 8, 6,     9, 17, 2

从最小二乘到岭回归(Ridge Regression)的深刻理解

岭回归是带二范数惩罚的最小二乘回归.ols方法中,X'X不能为0.当变量之间的相关性较强时,X'X很小,甚至趋于0.岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息.降低精度为代价获得回归系数更为符合实际.更可靠的回归方法,对病态数据的拟合要强于OLS.本质是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子.即:当λ=0时,b(λ)=b.b(λ)中各元素bi(λ)的绝对值均趋于不断变小(由于自变数间的相关,个别

R语言之岭回归

岭回归可以用来解决过度拟合的问题 一.线性模型的岭回归可使用ridge包中的linearRidge函数和MASS包中的lm.ridge函数> library(RSADBE)> data(OF)> LM <-lm.ridge(Y~poly(X,3),data = as.data.frame(OF),lambda=c(0,0.5,1,1.5,2,5,10,30))lambda为指定值 二.Logistic回归模型的岭回归可以使用ridge包中的logisticRidge函数拟合岭回归.

线性回归、岭回归和LASSO回归

尽管有些内容还是不懂,先截取的摘录. 1.变量选择问题:从普通线性回归到lasso 使用最小二乘法拟合的普通线性回归是数据建模的基本方法.其建模要点在于误差项一般要求独立同分布(常假定为正态)零均值.t检验用来检验拟合的模型系数的显著性,F检验用来检验模型的显著性(方差分析).如果正态性不成立,t检验和F检验就没有意义. 对较复杂的数据建模(比如文本分类,图像去噪或者基因组研究)的时候,普通线性回归会有一些问题:(1)预测精度的问题 如果响应变量和预测变量之间有比较明显的线性关系,最小二乘回归会

多重共线性的解决方法之——岭回归与LASSO

? ? ? 多元线性回归模型 的最小二乘估计结果为 如果存在较强的共线性,即 中各列向量之间存在较强的相关性,会导致的从而引起对角线上的 值很大 并且不一样的样本也会导致参数估计值变化非常大.即参数估计量的方差也增大,对参数的估计会不准确. 因此,是否可以删除掉一些相关性较强的变量呢?如果p个变量之间具有较强的相关性,那么又应当删除哪几个是比较好的呢? 本文介绍两种方法能够判断如何对具有多重共线性的模型进行变量剔除.即岭回归和LASSO(注:LASSO是在岭回归的基础上发展的) ? ? 思想:

岭回归技术原理应用

岭回归技术原理应用                 作者:马文敏 岭回归分析及其SPSS实现方法 岭回归分析(RidgeRegression)是一种改良的最小二乘估计方法,它是用于解决在线性回归分析中自变量存在共线性的问题.什么?共线性是什么?共线性就是指自变量之间存在一种完全或良好的线性关系,进而导致自变量相关矩阵之行列式近似为0,导致最小二乘估计失效.此时统计学家就引入了k个单位阵(I),使得回归系数可估计. 岭回归分析就是用来解决多重共线性的问题.在医学科研的实际工作中,往往不需要创造算法

机器学习第3周---炼数成金-----岭回归

多元线性回归的最小二乘解(无偏估计) 岭回归(Ridge Regression,RR) 当自变量间存在复共线性时,|X′X|≍0,我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异癿程度就会比X′X接近奇异癿程度小得多.岭回归做为β癿估计应比最小二乘估计稳定,当k=0时癿岭回归估计就是普通癿最小二乘估计.

机器学习3-课后题:使用岭回归与lasso算法选择变量

题目 准备 1准备安装和加载包 2读入数据 多重共线性检查 1全部变量参与线性回归 2全部变量参与线性回归 岭回归 1全部变量做岭回归 1去掉X3再做岭回归 使用linearRidge自动做岭回归 lasso 1变量选择顺序 2选择哪些变量 1.题目 分别使用岭回归和Lasso解决薛毅书第279页(PDF为p331)例6.10的回归问题 2.准备 2.1.准备安装和加载包 使用到R语言的函数和对应包 函数 功能 包 lm.ridge 提供岭回归函数 ridge linearRidge 自动进行岭

R语言统计分析技术研究——岭回归技术的原理和应用

岭回归技术的原理和应用 作者马文敏 岭回归分析是一种专用于共线性分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价获得回归系数更为符合实际,更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法. 回归分析:他是确立两种或两种以上变量间相互依赖的定量关系的一种统计分析法.运用十分广泛,回归分析按照设计量的多少,分为一元回归和多元回归分析,按照因变量的多少,可分为简单回归分析和多重回归分析,按照自变量和因变量的多少类型可分为线性回归