机器学习-局部加权回归

Locally weighted regression,局部加权回归 

对于线性回归,问题是选取的特征的个数和什么特征会极大影响fit的效果。

比如下图,是分布使用下面几个模型进行拟合的 :

  

通常会认为第一个模型underfitting(欠拟合),而第三个模型overfitting(过拟合),第二个模型相对比较好的fit到训练集

所以可以看出,找出一个全局的线性模型去fit整个训练集,是个比较困难的工作,因为选择特征成为一个关键的因素。

局部加权线性回归的思路,就是我不需要去fit整个训练集而产生全局的模型,而是在每次predict x的时候,只去拟合x附近的一小段训练集。

无论全局训练集是多么复杂的一个分布曲线,但在局部小段数据上,都可以用线性去逼近。

所以算法如下:

其中

可以看到我们通过weight来选取局部样本点,这里weight定义有点类似高斯分布,虽然这里和高斯分布没有关系,只是恰好相似,但是他的分布曲线确实和高斯分布一样,钟型,所以通过weight,只有距离x很近的样本点才会对于损失函数有作用。局部加权线性回归算法是一种non-parametric algorithm而普通的线性回归是parametric learning algorithm

parametric learning algorithm有一组有限的,固定的参数,一旦完成fit,只需要保存下参数值来做预测,而不需要保存完整的训练集 。

non-parametric algorithm,相反,我们需要保存完整的训练集来进行预测,而不是仅仅保存参数

正式定义为,the amount of stuff we need to keep in order to represent the
hypothesis h grows linearly with the size of the training set.

为了表达假设h而保存的数据随着训练集的size而线性增长。

前面讨论了线性回归问题,

符合高斯分布,使用最小二乘来作为损失函数。下面继续讨论分类问题,分类问题和回归问题不同在于Y的取值是离散的。

我们先讨论最简单的binary classification,即Y的取值只有0和1。

分类问题一般不会使用回归模型,因为回归模型是输出是连续的,而分类问题需要的输出是离散的。但是一定要用也不是不可以,比如这里继续使用线性回归模型,但是不是非常适合,原因如下:
1、首先线性模型的Y取值是连续,且没有限制的,而二元分类的取值为[0,1],对于线性回归模型,参考下图,可以以0.5为分界线,大于则取1,小于则取0,也可以转化为离散的结果。

2、再者,其实只有在分界线周围的样本点对分类模型会有比较大的影响,而比较远的样本点其实对模型没啥影响

但对于线性模型而言,增加任何样本点都会对模型产生相同的影响

所以提出logistic回归模型,这种回归模型可以比较好的解决二元分类问题。

从本质上你仍然可以把他理解为线性模型,你可以看下面给出的H函数,只是在线性回归外面加上logistic函数进行转换,可以理解成把上图的直线转化为那条sigmoid曲线,使其更加符合二元分类的需求。但是本质上可以看成仍然是用那条直线进行划分。

时间: 2024-07-30 17:12:36

机器学习-局部加权回归的相关文章

Stanford大学机器学习公开课(三):局部加权回归、最小二乘的概率解释、逻辑回归、感知器算法

(一)局部加权回归 通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的 过拟合(overfitting),不符合数据真实的模型.如下图的右图. 下面来讲一种非参数学习方法——局部加权回归(LWR).为什么局部加权回归叫做非参数学习方法呢?首先,参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖

局部加权回归(HGL的机器学习笔记3)

局部加权回归(Locally Weighted Regression, LWR) 局部加权回归使一种非参数方法(Non-parametric).在每次预测新样本时会重新训练临近的数据得到新参数值.意思是每次预测数据需要依赖训练训练集,所以每次估计的参数值是不确定的. 局部加权回归优点: 需要预测的数据仅与到训练数据的距离有关,距离越近,关系越大,反之越小: 可以有效避免欠拟合,减小了较远数据的干扰,仅与较近的数据有关. 对于一般训练集: 参数系统为: 局部加权回归原理: 图1 局部加权回归原理

线性回归 Linear regression(4) 局部加权回归

这篇文章将介绍过拟合和欠拟合的概念,并且介绍局部加权回归算法. 过拟合和欠拟合 之前在线性回归中,我们总是将单独的x作为我们的特征,但其实我们可以考虑将,甚至x的更高次作为我们的特征,那么我们通过线性回归得到的就将是一个多次函数了. 我们可以想象当我们只用x作为我们的特征的时候,我们的数据可能实际呈现的样子是一个二次函数的样子,也就是说我们的假设有一定的问题,那么我们求得的最小二乘值将相当的大了.但是如果我们有10组样本,我们选择一个10次方的特征,那么可以想象,最后我们得到的曲线将是一个能经过

局部加权回归

一种特定的非参数学习算法.也称作Loess. 算法思想: 假设对于一个确定的查询点x,在x处对你的假设h(x)求值. 对于线性回归,步骤如下: 1)       拟合出,使最小 2)       返回 对于局部加权回归,当要处理x时: 1)       检查数据集合,并且只考虑位于x周围的固定区域内的数据点 2)       对这个区域内的点做线性回归,拟合出一条直线 3)       根据这条拟合直线对x的输出,作为算法返回的结果 用数学语言描述即: 1)       拟合出,使最小 2)  

Robust Locally Weighted Regression 鲁棒局部加权回归 -R实现

鲁棒局部加权回归 算法参考文献: (1) Robust Locally Weighted Regression and Smoothing Scatterplots (Willism_S.Cleveland) (2) 数据挖掘中强局部加权回归算法实现 (虞乐,肖基毅) R实现 #Robust Locally Weighted Regression 鲁棒局部加权回归 # 一元样本值x,y ;待预测样本点xp ;f局部加权窗口大小(一般取1/3~2/3);d局部加权回归阶数; #time鲁棒局部加权

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

局部加权回归、欠拟合、过拟合-Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

欠拟合与过拟合、局部加权回归

PART 1 欠拟合与过拟合的概念 在拟合的时候如果拟合不好就会出现这两种情况 欠拟合:就是拟合结果不够贴近样本数据.如图: 过拟合:因为拟合过于靠近样本点导致无法很好反映出总体的变化趋势 PART 2 局部加权线性回归 概念:简单的说就是在一个小区间内拟合出一条直线,并用结果来预测小区间内的数据 过程如下: 其中权值w(i)定义如下: 从本式中可以看出,若x偏离样本较远(|xi-x|很大),那么对应的权值趋近于0.若x很贴近样本点(|xi-x|很小),那么对应的权值趋近于1

斯坦福吴恩达教授机器学习公开课第三讲笔记——局部加权回归/线性回归的概率解释/分类和逻辑回归