R语言统计分析技术研究——岭回归技术的原理和应用

岭回归技术的原理和应用

作者马文敏

岭回归分析是一种专用于共线性分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价获得回归系数更为符合实际,更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。

回归分析:他是确立两种或两种以上变量间相互依赖的定量关系的一种统计分析法。运用十分广泛,回归分析按照设计量的多少,分为一元回归和多元回归分析,按照因变量的多少,可分为简单回归分析和多重回归分析,按照自变量和因变量的多少类型可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和因变量,且两者关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或俩个以上的自变量,且自变量之间存在线性相关,则称为多重性回归分析

岭回归的原理:岭回归的原理较为复杂。根据高斯马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性,但是,虽然最小二乘法估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定最小。而实际上可以找一个有偏估计量,这个估计量虽然有微笑的偏差,但他的精度却能够大大高于无偏的估计量。岭回归分析就是依据这个原理,通过在正规方程中引入有偏常数而求得回归估计量的,具体情况可以查阅资料。

对于有些矩阵,矩阵中某个元素的一个很小变动,会引起最后计算结果误差很大,这种矩阵称为病态矩阵。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元上的元素很小,在计算时就会表现出病态的特征。

岭回归方程的平方值会稍低于普通回归分析,但回归技术的显著性往往明显高于普通回归,在存在共线性的问题和病态数据偏多的研究中有较大的利用价值

岭回归的应用:在家禽育植的应用:讨论了岭回归方法应用于混合线性模式方程组中估计家禽育植方法,其实质是将传统的混合线性模型方程组理解为一种广义岭回归估计,为确定遗传参数的估计提供一种途径,同时,以番鸭为例,考虑了一个性状和两个固定效应,采用广义岭回归对公番鸭育植进行了估计,并与最佳线性无偏预测法进行了比较,结果表明,广义岭回归方法和BLUP法估计的育种植及其排序极其相似,其相关系数和秩 相关系数分别达到了0.998和0.986,且采用广义岭回归法预测的误差率极低,表明在混合线性模型方程组中使用广义岭回归估计动物育植方法具有可行性,并可省去估计遗传参数的过程,使BLUP法在动物选育中的应用更具有实用性。

正向和反向相结合的卫星摄影数据模拟:卫星摄影数据仿真,通常采用正向模拟和反向模拟两种方法。正向模拟方法简单易行,无需替代计算,但地面点坐标在Y方向存在较大的差异,反向模拟可规避Y方向存在的差异问题,但必须基于已有的DEM数据,且DEM数据范围要与外方位元素范围基本一致,模拟数据受数据源条件制约。

参考文件

百度-----人大经济论坛

百度------道客巴巴

火狐浏览器

时间: 2024-10-05 04:27:42

R语言统计分析技术研究——岭回归技术的原理和应用的相关文章

岭回归技术原理应用

岭回归技术原理应用                 作者:马文敏 岭回归分析及其SPSS实现方法 岭回归分析(RidgeRegression)是一种改良的最小二乘估计方法,它是用于解决在线性回归分析中自变量存在共线性的问题.什么?共线性是什么?共线性就是指自变量之间存在一种完全或良好的线性关系,进而导致自变量相关矩阵之行列式近似为0,导致最小二乘估计失效.此时统计学家就引入了k个单位阵(I),使得回归系数可估计. 岭回归分析就是用来解决多重共线性的问题.在医学科研的实际工作中,往往不需要创造算法

R语言统计分析-方差分析

R语言统计分析-方差分析 一.方差分析简单的例子 测试6中杀虫剂的效果,目标值为虫子个数,对方差进行分析. 1.导入数据 data(InsectSprays) 2.平方根转换,分析 aov.spray <- aov(sqrt(count) ~ spray, data = InsectSprays) aov()左边为左边相应变量,右边预测变量. 等价于 > aov.spray <- aov(sqrt(InsectSprays$count) ~ InsectSprays$spray) 知道编

R语言统计分析技术研究 特征值选择技术要点

特征值选择技术要点                          作者:王立敏 文章来源:  网络 1.特征值 特征值是线性代数中的一个重要概念.在数学,物理学,化学,计算机等领域有着广泛的应用.设A是n阶方阵,如果存在数m和非零n维列向量x,使得Ax=mx成立,则称m是A的一个特征值或本征值.非零n维列向量x称为矩阵A的属于特征值m的特征向量或本征向量,简称A的特征向量或A的本征向量. 2.使用R语言的Boruta包进行特征选择 在数据分析过程中,利用各种图表进行数据探索是必要的前期工作

R语言统计分析应用与SAS、SPSS的比较

能够用来做统计分析的软件和程序很多,目前应用比较广泛的包括:SPSS, SAS.R语言,Matlab,S-PLUS,S-Miner等.下面我们来看一下各应用的特点: SPSS: 最简单的,都是菜单操作,不过不利于二次程序开发. SAS: 需要购买,该软件录入语言要非常精确,不能出错,难操作. R语言:免费软件,可以菜单操作,不过一般要编程的,二次程序开发. Matlab:基本是程序操作,和R语言差不多,不过功能比较强大. S-PLUS: 需要购买,基本也是菜单操作,和SPSS差不多. R与SPS

R语言实战(四)回归

本文对应<R语言实战>第8章:回归 回归是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量.效标变量或结果变量)的方法.通常,回归分析可以用来挑选与相应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量. 回归分析的各种变体 回归类型 用途 简单线性 用一个量化的解释变量预测一个量化的响应变量 多项式 用一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式 多元线性 用两个或多个量化的解释变量预测一个

python Ridge 回归(岭回归)的原理及应用

岭回归的原理: 首先要了解最小二乘法的回归原理 设有多重线性回归模型   y=Xβ+ε  ,参数β的最小二乘估计为 当自变量间存在多重共线性,|X'X|≈0时,设想|X'X|给加上一个正常数矩阵(k>0) 那么|X'X|+kI 接近奇异的程度就会比接近奇异的程度小得多.考虑到变量的量纲问题, 先要对数据标准化,标准化后的设计矩阵仍用X表示,定义称为的岭回归估计,其中, k称为岭参数.由于假设X已经标准化,所以就是自变量样本相关阵.y可以标准化也可以未标准化, 如果y也经过标准化,那么计算的实际是

R语言统计分析技术研究——卡方检验的思想和实现

卡方检验的思想和实现 作者:李雪丽 材料摘自:百度

R语言重要数据集分析研究——需要整理分析阐明理念

1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度 先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的 众数:出现次数最多的 方差:每个样本值与均值的差得平方和的平均数 标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性 极差:最大值

R语言在数据处理上的禀赋之——可视化技术(一)

本文首发 https://program-dog.blogspot.com R语言在可视化上可谓非常出众,想必这也是为什么R语言在数据处理方面受到追捧的原因之一. 上一节已经大体了解了R语言的基本数据类型,以及优势所在.R的可视化技术同样也是优势大大滴.这也是R的数据类型为可视化立下汗马功劳,为啥这样说呢? Java的可视化技术 我们再拿Java开刀,和做一下对比.希望Java他老爹不要见怪.大家都知道,java做图真心说不上漂亮,为什么又拿java做对比呢?原因之一是我对java比较熟悉一点,