多元线性回归的预测

   回归模型除了对参数进行估计和检验,以弄清楚变量的相关性和因果性之外,另一个目的便是进行预测。

  那么,由OLS方法的出来的预测结果是否可靠呢?预测结果的可靠性又会受什么因素的影响呢?除了点估计的预测结果,能否有区间估计的预测结果呢?

  本文就这些问题,来进行一一探讨

 1.引入why?

  回归模型除了对参数进行估计和检验,以弄清楚变量的相关性和因果性之外,另一个目的便是进行预测。

  那么,由OLS方法的出来的预测结果是否可靠呢?预测结果的可靠性又会受什么因素的影响呢?除了点估计的预测结果,能否有区间估计的预测结果呢?

  本文就这些问题,来进行一一探讨

2.问题具体是什么?what

首先,说明初始的多元线性估计模型:

(1)

  在多元线性估计的过程中,我们已经得出了线性模型的估计形式

(2),

其中是我们多元线性回归模型的参数估计值

那么,现在我们有了模型形式以及参数的估计值。在被给定另一组自变量样本的条件下。

我们对此时Y的估计为:(3)

需要注意的是,上式只是对Y预测值的估计,并非对Y的估计。因为由公式(1)看出,Y是由两部分组成的,只是的估计,模型的随机项是无法估计的。所以我们说(3)式只是对Y的预测值的估计。

那么现在问题来了,我们现在求得的只是一个预测值的估计,那么Y的预测值E(Y0 )的区间估计能否得出,进一步Y的估计区间又能不能得出呢?

什么?为什么要进行区间估计?很简单,因为只有点估计的话,你根本不知道点估计靠不靠谱,如果告诉你你下次考试预计分数是95,以及90-100这个分数区间包含你下次考试的分数的概率为90%,你觉得那种说法更靠谱呢?

3.解决思路

构造统计量,该统计量要分别包括E(Y0 )

对于E(Y0 )的区间估计:

易知:

,

则可以通过y(hat)服从正态分布,但是方差未知,明显,可以用样本方差来进行t统计量的构建

对于Y0 的区间估计

发现

服从正态分布,我们是知道的,而的分布也是有假设的,那么e0 的分布状况也就能够轻松获得了

4.解决过程

对于的区间估计

对于的区间估计

注:t分布是由正态分布推导出来的。

其中,e为样本标准差。

总结

可以看出

  1. x0越与估计样本x差异大,区间也就越大,估计也就越不精准,这就是为什么回归模型不适合外推
  2. x的共线性越大, 也就越小,从而 的估计区间也就越大,估计越不精准。
时间: 2024-10-30 16:59:06

多元线性回归的预测的相关文章

tensorflow实现多元线性回归时预测出的参数为nan

这是由于在用feed_dict 进行数据喂养之前没有做数据归一化: 解决办法: 使用sklearn包中的preprocessing做归一化: 大妈如下 from sklearn import preprocessing example是我们要归一化的数据 scaler = preprocessing.StandardScaler().fit(example) print(scaler.mean_, scaler.scale_) x_data_standard = scaler.transform

02-07 多元线性回归(波士顿房价预测)

目录 多元线性回归(波士顿房价预测) 一.导入模块 二.获取数据 三.训练模型 四.可视化 五.均方误差测试 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ 多元线性回归(波士顿房价预测) 一.导入模块 import pandas as pd import matplotlib.pyplot as plt from matplotlib.font_manager im

多元线性回归和多项式回归

多项式回归也称多元非线性回归,是指包含两个以上变量的非线性回归模型.对于多元非线性回归模型求解的传统解决方案,仍然是想办法把它转化成标准的线性形式的多元回归模型来处理. 多元非线性回归分析方程 如果自变数与依变数Y皆具非线性关系,或者有的为非线性有的为线性,则选用多元非线性回归方程是恰当的.例如,二元二次多项式回归方程为: 令,及于是上式化为五元一次线性回归方程: 这样以来,便可按多元线性回归分析的方法,计算各偏回归系数,建立二元二次多项式回归方程. -参考文献:智库百科,点击打开 多元二项式回

简单多元线性回归(梯度下降算法与矩阵法)

多元线性回归是最简单的机器学习模型,通过给定的训练数据集,拟合出一个线性模型,进而对新数据做出预测. 对应的模型如下: n: 特征数量. 一般选取残差平方和最小化作为损失函数,对应为: M:训练样本数量. 通过最小化代价损失函数,来求得 值,一般优化的方法有两种,第一是梯度下降算法(Gradient Descent),第二种是矩阵法(The normal equations). 梯度下降算法

R语言解读多元线性回归模型

转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型.在许多生活和工作的实际问题中,影响因变量的因素可能不止一个,比如对于知识水平越高的人,收入水平也越高,这样的一个结论.这其中可能包括了因为更好的家庭条件,所以有了更好的教育:因为在一线城市发展,所以有了更好的工作机会:所处的行业赶上了大的经济上行周期等.要想解读这些规律,是复杂的.多维度的,多元回归分析方法更适合解读生活的规律. 由于本文为非统计的专业

线性模型(1) —— 多元线性回归

提纲: 线性模型的基本形式 多元线性回归的损失函数 最小二乘法求多元线性回归的参数 最小二乘法和随机梯度下降的区别 疑问 学习和参考资料 1.线性模型的基本形式 线性模型是一种形式简单,易于建模,且可解释性很强的模型,它通过一个属性的线性组合来进行预测,其基本的形式为: 式(1) 转换成向量形式之后写成: 式(2) 为什么说其解释性很强呢,是因为模型的权值向量十分直观地表达了样本中每一个属性在预测中的重要度,打个比方,要预测今天是否会下雨,并且已经基于历史数据学习到了模型中的权重向量和截距b,则

SPSS--回归-多元线性回归模型案例解析

多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为: 毫无疑问,多元线性回归方程应该为: 上图中的 x1,  x2, xp分别代表"自变量"Xp截止,代表有P个自变量,如果有"N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中: 代表随机误差, 其中随机误差分为:可解释的误差 和 不可解释的误差,随机误差必须满足以下四个条件,

【R】多元线性回归

R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整.这里结合Statistical Learning和杜克大学的Data Analysis and Statistical Inference的章节以及<R语言实战>的OLS(Ordinary Least Square)回归模型章节来总结一下,诊断多元线性回归模型的操作分析步骤. 1.选择预测变量 因变量比较容易确定,多元回归模型中难在自变量的选择.自变量选择主要可分为向前选择(逐次加使RSS最小的自变量),向后选择(逐

机器学习笔记02:多元线性回归、梯度下降和Normal equation

在<机器学习笔记01>中已经讲了关于单变量的线性回归以及梯度下降法.今天这篇文章作为之前的扩展,讨论多变量(特征)的线性回归问题.多变量梯度下降.Normal equation(矩阵方程法),以及其中需要注意的问题. 单元线性回归 首先来回顾一下单变量线性回归的假设函数: Size(feet2) Price($1000) 2104 460 1416 232 1534 315 852 178 - - 我们的假设函数为 hθ(x)=θ0+θ1x 多元线性回归 下面介绍多元线性回归(Linear R