线性回归-误差,似然函数

一、线性回归

在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

下面我们来举例何为一元线性回归分析,图1为某地区的房屋面积(feet)与价格($)的一个数据集,在该数据集中,只有一个自变量面积(feet),和一个因变量价格($),所以我们可以将数据集呈现在二维空间上,如图2所示。利用该数据集,我们的目的是训练一个线性方程,无限逼近所有数据点,然后利用该方程与给定的某一自变量(本例中为面积),可以预测因变量(本例中为房价)。本例中,训练所得的线性方程如图3所示。

        图1、房价与面积对应数据集

图2、二维空间上的房价与面积对应图

图3、线性逼近

同时,分析得到的线性方程为:

接下来还是该案例,举一个多元线性回归的例子。如果增添了一个自变量:房间数,那么数据集可以如下所示:

图4、房价与面积、房间数对应数据集

那么,分析得到的线性方程应如下所示:

因此,无论是一元线性方程还是多元线性方程,可统一写成如下的格式:

上式中x0=1,而求线性方程则演变成了求方程的参数ΘT

线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以有前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算,这样就可以表达特征与结果之间的非线性关系。

二、真实值、预测值、误差:

对误差的深入理解:

  [假设]:误差 ε 是独立同分布的,并且服从均值为0方差为θ^2的高斯分布,

   误差特点:  1.误差指的是实际值与预测值之间的差值  2.独立:张三和李四一起来贷款,他俩没关系。  3.同分布:张三和李四都是我们张三和李四都来的是我们假定的这家银行来贷款   4.高斯分布:银行可能会多贷款,也可能少贷款,但是绝大多数情况下,这个贷款的差额的浮动不会太大(这里所说的的多贷款,少贷款是银行实际贷款和预测贷款之间的差别)       


下面展示高斯分布(正态分布)的图像:

 
       根据图型对误差的深入理解: 高斯分布的积分为1,所以可以把闭区间的面积看作概率,中间区域的面积最大,说明值落在中间的概率大,由图可知,有大概率的点是落在x=0附近的,高斯分布的纵坐标无实际意义,纵坐标的值与方差θ的平方有关,θ越大,表示样本的震荡幅度越大(不会密集的分布在0附近),那么图像就越矮,纵坐标越小。

三、似然函数

 
目的:计算出什么样的参数θ和我们的数据(x,y)组合之后,能满足我们的真实值(根据数据来猜测结果)

形象理解:比如说我们掷硬币,掷了十次,结果是九次正面朝上,一次反面朝上,那么认为下一次正面朝上的概率θ就是90%; 
        似然函数就是用结果(或样本)(9正,1负的数据)来推算参数(weight权重、概率),也就是说通过参数θ得到的预测的算法,能够尽可能地拟合样本数据(已知结果),从而最大化的使得预测结果更偏向于真实数据。 
        似然函数说白了就是结果导向,由已知结果来推算出预测参数θ,因为结果已经发生了,那么概率p(y|x;θ)肯定是取最大的! 
       这里的似然函数是怎么来的:

(1)式是已知的,(2)式我们假设的,那么将(1)代入(2),就可以得到一个新的关于参数θ的函数,这就是一个似然函数。

注:前面的括号里面的参数,经查阅资料,分号前面的表示已知量、确定值,分号后面的是自变量,所以似然函数就是一个关于θ的函数,所以可以简写成L(θ)

但是似然函数的累乘的,乘法比较难算,我们可以引入对数,进行累加:

四、最小二乘法

  根据上面的对数似然函数,我们可以进行化简从而得到最小二乘法:

五、计算最小二乘法(得到参数取何值时候,真实值和预测值越接近)

六:评估方法(对我们模拟的模型进行评估)

原文地址:https://www.cnblogs.com/hum0ro/p/9649667.html

时间: 2024-10-19 16:11:55

线性回归-误差,似然函数的相关文章

最小二乘法实现的线性回归误差逆向传递的简单演示

import numpy as npimport matplotlib.pyplot as pltimport time x_data = np.arange(100,)print(x_data)k0 = np.random.random()b0 = np.random.random() y_data = x_data*k0+np.random.random(100,)*3print()print(y_data)# plt.ion()plt.figure(figsize=(12,9))plt.s

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在<数学之美>中提到,Google是利用逻辑回归预测搜索广告的点击率.因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么.幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解.与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因

线性回归,逻辑回归的学习(包含最小二乘法及极大似然函数等)

博文参考了以下两位博主的文章:http://blog.csdn.net/lu597203933/article/details/45032607,http://blog.csdn.net/viewcode/article/details/8794401 回归问题的前提: 1) 收集的数据 2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数.然后利用这个模型去预测/分类新的数据. 1. 线性回归 假设 特征 和 结果 都满足线性.即不大于一次方.这个是针对 收集的数据

机器学习推导笔记1--机器学习的任务、步骤、线性回归、误差、梯度下降

前段时间放假在家的时候,总算是看完了斯坦福的机器学习公开课(Andrew NG)的监督学习,这项计划持续了将近一个学期.无监督学习和强化学习部分暂时还不太想看,目前来说监督学习与我现在的情况更契合一些.看完监督学习部分,对机器学习的了解又深了一些,加上之前帮师兄做实验,从工程角度和理论角度共同推进,感觉还是挺好的. 为了巩固学习成果,在刷题之余,准备写一系列笔记,自己推导一遍机器学习里比较重要的几个算法,并附上自己的理解.我一直认为能讲出来的东西,才是自己的.写笔记有助于我自己理清思路,当然也希

采用线性回归方法降低双目测距到平面的误差(python+sklearn)

继上篇,为了改善标定板的深度信息: remove_idx1 = np.where(Z <= 0) remove_idx2 = np.where(Z > 500)#将Z轴坐标限定在0-500,以减少非标定板区域的坐标影响 采用线性回归并显示坐标信息 from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D #删除

Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归

[总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 梯度下降法 梯度下降法是一种用来寻找函数最小值的算法.算法的思想非常简单:每次沿与当前梯度方向相反的方向走一小步,并不断重复这一过程.举例如下: [例]使用梯度下降法,求的最小值. 第一步:求解迭代格式.根据“每次沿与当前梯度方向相反的方向走一小步”的思想,可知 第二步:选择迭代的初始值.初始值一般可以随意选择,但恰当的初始值有助于提升收敛速度.本例中选择 第三步:根据迭代格式和初始值进行

机器学习 —— 基础整理(五):线性回归;二项Logistic回归;Softmax回归;广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号

对线性回归、逻辑回归、各种回归的概念学习

http://blog.csdn.net/viewcode/article/details/8794401 回归问题的条件/前提: 1) 收集的数据 2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数.然后利用这个模型去预测/分类新的数据. 1. 线性回归 假设 特征 和 结果 都满足线性.即不大于一次方.这个是针对 收集的数据而言.收集的数据中,每一个分量,就可以看做一个特征数据.每个特征至少对应一个未知的参数.这样就形成了一个线性模型函数,向量表示形式: 这个就

Linear Regreesion 线性回归问题

首先必须明白什么是线性回归,  linear 线性:当y和x之间成比例,为直线时. Regreesion 回归:即研究几个变量之间的关联关系,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型.最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关.若进一步假定随机误差遵从正态分布,就叫做正态线性模型. 线性回归:所以可以认