回归预测及R语言实现 Part1 回归基础综述

Part1 回归基础综述

回归方法有很多种,最常见的是线性回归(又有一元和多元之分)、多项式回归、非线性回归。另外还将简单说明对预测结果的检验方法。

 

线性回归

一元线性回归,是最简单最常见的回归模型,类似初中数学中的一元一次方程,它的基本模型如下:

我们常见的一元线性回归方程一般没有最后一项,确切的说,我们在实际的应用中也忽略了最后一项。最后一项ui的现实意义是:它是指除自变量x以外所有对因变量y有影响的其他因素,应用回归预测时,我们假设ui是一个均值为零的随机变量,方差为常值,不同ui间相互独立,并与自变量x相互独立。

多元线性回归,则类似多元一次方程,是指在存在二个或二个以上的自变量,会对因变量y产生线性影响,线性影响这个说法不知道有没有,意思就是一次关系。多元线性回归模型如下:

是n个对因变量y会产生影响的n个自变量。二元线性回归和三元线性回归在实际应用中都比较常见,因变量再多的话关系比较复杂但将其简单定义为线性关系,可能在用作预测时,误差会较大。

线性回归方法在做预测时,我们需要根据已有观测数据得到参数。常见估算b参数的方法有最小二乘法和最大似然估计法。

简单来说最小二乘法就是估算值能很好地拟合已有的观测值,使得估计值和观测值之差的平方和最小。最大似然估计法的依据是:概率最大的事件最可能发生。以一元线性回归为例,说明下,这两个算法是如何来估算的。

 

最小二乘法

根据最小二乘法的概念,使得估计值和观测值差的平方和最小,即使下面的式子能取到最小值:

根据微积分中求极值的原理,只需分别对求偏导,并使之等于0时能取到最小值。可以求得的值分别如下:

最大似然估计法

给一个参考http://blog.csdn.net/ppn029012/article/details/8908104,简单线性回归比较常用的是上面最小二乘法。这里不再详细说明最大似然估计法的过程。

多项式回归

多项式回归,简单来看,就是自变量x的多项式与因变量y的关系,其模型如下:

非线性回归

现实生活中,很多问题并不是简单的线性关系,这种情况下,要选择合适的曲线才能来描述实际问题。上面的多项式回归就是一种非线性回归。介绍几种常见的非线性回归关系,作图软件http://fooplot.com/

1.      幂函数

b>0时,图形如下,图中三条线分别是a=1,b=0.5;a=1,b=1;a=1,b=2时的情况。

b<0时,图形如下,图中三条线分别是a=1,b=-0.5;a=1,b=-1;a=1,b=-2时的情况。

2.      指数函数与对数函数

3.      抛物线函数

这就是一种多项式回归,二项式,是现实中很常见的一种描述问题的方法模型。感觉中学跟它打交道的时间很多。这个模型的图形如下:

a=1,b=-2,c=1时

a=-1,b=2,c=-1时

4.      S形函数

又被叫做逻辑函数。这个函数图形很有特点,很适合描述实际问题,有兴趣可以看下它的说明http://zh.wikipedia.org/wiki/%E9%82%8F%E8%BC%AF%E5%87%BD%E6%95%B8

验证方法

下面简单说明对回归结果的验证的几种方法。

1.      标准误差

标准误差是估计值与观测值的平均平方误差,其计算公式为:

2.      可决系数

可决系数的取值范围是0~1,是1减去未解释离差与实际方差的比值,R^2的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R^2的值越接近0,说明回归直线对观测值的拟合程度越差。其计算公式如下:

3.      相关系数

相关系数的取值范围是-1~1,其实它就是前面可决系数的开方值,区别于可决系数的是相关系数可以有正有负。相关系数接近1或者-1时拟合程度好,接近0时拟合程度不好。其计算公式如下:

4.      F检验

上式中,总离差可分解为回归偏差和剩余残差两部分。自由度n-1也可分解为回归自由度1和残差自由度n-2两部分。将回归偏差和剩余残差分别除以它们的自由度后相比即为检验统计量F。其计算公式如下:

这里F服从F(1,n-2)分布,取显著性水平,如果,则表明回归模型显著,否则回归模型不显著不能用于预测。

简单说明下自由度表示的是一组数据可以自由表化的数量的多少。n-1是通常的计算方法,更准确的讲应该是n-x,n表示“处理”的数量,x表示实际需要计算的参数的数量。

5.      t检验

回归系数的显著性检验常用t值,其计算公式如下:

其中,t服从自由度为n-2的t分布,取显著水平,如果,则回归系数b显著。

参考:《统计预测和决策》 徐国祥(所有公式都出自这里)

有任何问题建议欢迎指出,谢谢!

时间: 2024-08-28 01:03:45

回归预测及R语言实现 Part1 回归基础综述的相关文章

回归预测及R语言实现 Part2 回归R语言实现

下面是回归分析的各种变体的简单介绍,解释变量和相应变量就是指自变量和因变量. 常用普通最小二乘(OLS)回归法来拟合实现简单线性.多项式和多元线性等回归模型.最小二乘法的基本原理前面已经说明了,使得预测值和观察值之差最小. R中实现拟合线性模型最基本的函数是lm(),应用格式为: myfit <- lm(Y~X1+X2+-+Xk,data) data为观测数据,应该为一个data.frame,前面是拟合表达式,Y是因变量,X1-Xk是自变量,+用来分隔不同的自变量的,还有可能用到的其他符号的说明

用R语言进行分位数回归:基础篇

用R语言进行分位数回归:基础篇 詹鹏 (北京师范大学经济管理学院 北京) http://www.xiaowanxue.com/up_files/2012121819040.html 原文地址:https://www.cnblogs.com/jwg-fendi/p/10069488.html

R语言学习笔记:基础知识

1.数据分析金字塔 2.[文件]-[改变工作目录] 3.[程序包]-[设定CRAN镜像] [程序包]-[安装程序包] 4.向量 c() 例:x=c(2,5,8,3,5,9) 例:x=c(1:100) 表示把1 - 100的所有数字都给x这个变量 5.查看x的类型:>mode(x) 6.查看x的长度:>length(x) 7.将两个向量组成一个矩阵: >rbind(x1, x2)  注:r是row的意思,即行,按行组成矩阵. >cbind(x1, x2)  注c是column的意思,

R语言使用二元回归将序数数据建模为多元GLM

用于分析序数数据的最常见模型是 逻辑模型 .本质上,您将结果视为连续潜在变量的分类表现.此结果的预测变量仅以一种方式对其产生影响,因此 为每个预测变量获得一个回归系数.但是该模型有几个截距,它们代表将变量切分以创建观察到的分类表现的点. 就像在普通回归模型中一样,每个预测变量都会以一种方式影响结果,这就是比例赔率假设或约束.或者,可以让每个预测变量在每个切入点对结果产生不同的影响. 如何使用单变量GLM软件对此建模?UCLA idre页面上有关于多元随机系数模型的文章.在这里很重要,因为他们使用

空间点过程分析的R语言实现+PART1(1~4.6)

研究WSN空间覆盖能力的论文或多或少会假设随机部署的节点位置是服从柏松点过程(Possion Point Process,PPP)的,刚接触到这个概念也是挺懵了,之前学过随机过程.排队论都是讲的一维上的Possion Process,而二维平面上的PPP如何实现呢?在许多论坛上搜索后,终于找到实现二维PPP的代码实现,原来有个大牛Adrian Baddeley集结了一帮人搞了一个R语言包spatstat专门研究Spatial point process.先给出二维平面上SPP生成代码: libr

R语言之逻辑回归

本文主要将逻辑回归的实现,模型的检验等 参考博文http://blog.csdn.net/tiaaaaa/article/details/58116346;http://blog.csdn.net/ai_vivi/article/details/43836641 1.测试集和训练集(3:7比例)数据来源:http://archive.ics.uci.edu/ml/datasets/statlog+(australian+credit+approval) austra=read.table("au

R语言之岭回归

岭回归可以用来解决过度拟合的问题 一.线性模型的岭回归可使用ridge包中的linearRidge函数和MASS包中的lm.ridge函数> library(RSADBE)> data(OF)> LM <-lm.ridge(Y~poly(X,3),data = as.data.frame(OF),lambda=c(0,0.5,1,1.5,2,5,10,30))lambda为指定值 二.Logistic回归模型的岭回归可以使用ridge包中的logisticRidge函数拟合岭回归.

R语言做逻辑回归

前面写过一个多分类的逻辑回归,现在要做一个简单的二分类,用glm函数 导入csv格式如下: mydata<-read.csv("D://li.csv",header=T) colnames(mydata)<-c("x1","x2","x3","y") model<-glm(formula = y ~ x1+x2+x3, family = quasibinomial(link = "

逻辑回归算法实现_基于R语言

逻辑回归(Logistic Regression)模型和线性回归非常相似,可以说就是在逻辑回归的基础上加上了一步逻辑转换,也就是因为这个转换,使逻辑回归模型非常适用于二分类问题的概率预测.本文主要详述逻辑回归模型的基础以及逻辑回归模型的R语言实现. 一.逻辑回归模型原理 首先要讲一下线性回归在预测分类事件中的缺点:线性回归模型的泛化能力很差,如果训练集存在噪点,会导致模型的结果特别差,不同样本建立起来的模型分割点不同:下图中根据年龄预测是否成年的分类问题,斜线就是根据训练集拟合出来的线性回归模型