线性回归之决定系数(coefficient of determination)

1. Sum Of Squares Due To Error 

对于第i个观察点, 真实数据的Yi与估算出来的Yi-head的之间的差称为第i个residual, SSE 就是所有观察点的residual的和
2. Total Sum Of Squares

3. Sum Of Squares Due To Regression

通过以上我们能得到以下关于他们三者的关系

决定系数: 判断 回归方程 的拟合程度

(coefficient of determination)决定系数也就是说: 通过回归方程得出的 dependent variable 有 number% 能被 independent variable 所解释. 判断拟合的程度

(Correlation coefficient) 相关系数 : 测试dependent variable 和 independent variable 他们之间的线性关系有多强. 也就是说, independent variable 产生变化时 dependent variable 的变化有多大.

可以反映是正相关还是负相关

参考链接:http://blog.csdn.net/ytdxyhz/article/details/51730995

注意此决定系数不能用来衡量非线性回归的拟合优度

Why Is It Impossible to Calculate a Valid R-squared for Nonlinear Regression?

R-squared is based on the underlying assumption that you are fitting a linear model. If you aren’t fitting a linear model, you shouldn’t use it. The reason why is actually very easy to understand.

For linear models, the sums of the squared errors always add up in a specific manner: SS Regression + SS Error = SS Total.

This seems quite logical. The variance that the regression model accounts for plus the error variance adds up to equal the total variance. Further, R-squared equals SS Regression / SS Total, which mathematically must produce a value between 0 and 100%.

In nonlinear regression, SS Regression + SS Error do not equal SS Total! This completely invalidates R-squared for nonlinear models, and it no longer has to be between 0 and 100%.

参考链接:http://blog.minitab.com/blog/adventures-in-statistics-2/why-is-there-no-r-squared-for-nonlinear-regression

时间: 2024-10-10 17:05:32

线性回归之决定系数(coefficient of determination)的相关文章

scikit-learn : 线性回归,多元回归,多项式回归

匹萨的直径与价格的数据 %matplotlib inline import matplotlib.pyplot as plt def runplt(): plt.figure() plt.title(u'diameter-cost curver') plt.xlabel(u'diameter') plt.ylabel(u'cost') plt.axis([0, 25, 0, 25]) plt.grid(True) return plt plt = runplt() X = [[6], [8],

机器学习系列:(二)线性回归

线性回归 本章介绍用线性模型处理回归问题.从简单问题开始,先处理一个响应变量和一个解释变量的一元问题.然后,我们介绍多元线性回归问题(multiple linear regression),线性约束由多个解释变量构成.紧接着,我们介绍多项式回归分析(polynomial regression问题),一种具有非线性关系的多元线性回归问题.最后,我们介绍如果训练模型获取目标函数最小化的参数值.在研究一个大数据集问题之前,我们先从一个小问题开始学习建立模型和学习算法. 一元线性回归 上一章我们介绍过在

Python - 线性回归(Linear Regression) 的 Python 实现

背景 学习 Linear Regression in Python – Real Python,前面几篇文章分别讲了"regression怎么理解","线性回归怎么理解",现在该是实现的时候了. 线性回归的 Python 实现:基本思路 导入 Python 包: 有哪些包推荐呢? Numpy:数据源 scikit-learn:ML statsmodels: 比 scikit-learn 功能更强大 准备数据 建模拟合 验证模型的拟合度 预测:用模型来预测新的数据 实

1.机器学习之模型评估详解

模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程.常用的聚类模型评价指标有ARI评价法(兰德系数).AMI评价法(互信息).V-measure评分.FMI评价法和轮廓系数等.常用的分类模型评价指标有准确率(Accuracy).精确率(Precision).召回率(Recall).F1值(F1 Value).ROC和AUC等.常用的回归模型评价指标有平均绝对误差.均方根误差.中值绝对误差和可解释方差值等. 线性回归解决的是连续型数值的预测问题,例如预测

相关分析和回归分析

相关分析 相关分析定义 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对详细有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法. 相关关系是一种非确定性的关系,比如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由当中的一个去精确地决定还有一个的程度,这就是相关关系. [编辑本段] 相关分析的分类 1.线性相关分析:研究两个变量间线性关系的程度.

Oracle 10gR2分析函数

Oracle 10gR2分析函数汇总 (Translated By caizhuoyi 2008‐9‐19) 说明:  1. 原文中底色为黄的部分翻译存在商榷之处,请大家踊跃提意见:  2. 原文中淡蓝色字体的文字,不宜翻译,保持原样.  1. ANALYTIC FUNCTIONS Analytic functions compute an aggregate value based on a group of rows. They differ from aggregate functions

Lasso Regression

Lasso Regression 标签(空格分隔): 监督学习 在数据挖掘和机器学习算法的模型建立之初,为了尽量的减少因缺少重要变量而出现的模型偏差问题,我们通常会尽可能的多的选择自变量.但是在实际建模的过程中,通常又需要寻找 对响应变量具有解释能力的自变量子集,以提高模型的解释能力与预测精度,这个过程称为特征选择. 还是考虑<线性回归>中的一般线性回归模型y=wTx,使用最小二乘估计(OLS)可以得到,模型的参数为: w=argminw∑i=1N(yi?wTxi)=(XTX)?1y 最小二乘

机器学习算法分类及其评估指标

机器学习的入门,我们需要的一些基本概念: 机器学习的定义 M.Mitchell<机器学习>中的定义是: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习. 算法分类 两张图片很好的总结了(机器学习)的算法分类: 评估指标 分类(Classification)算法指标: Accuracy准确率 Precision精确率 Recall召回率 F1 score 对于分类问题的结果可以用下表表示(说明:True或者False

比萨铁塔——统计显著性检验

Dataset 比萨斜塔是意大利最大的旅游景点之一.几百年来这座塔慢慢靠向一边,最终达到5.5度的倾斜角度,在顶端水平偏离了近3米.年度数据pisa.csv文件记录了从1975年到1987年测量塔的倾斜,其中lean代表了偏离的角度.在这个任务,我们将尝试使用线性回归来估计倾斜率以及解释其系数和统计数据. # 读取数据 import pandas import matplotlib.pyplot as plt pisa = pandas.DataFrame({"year": range