加州理工学院公开课:机器学习与数据挖掘_Radial Basis Function(第十六课)

课程简介 :

主要介绍了 RBF 模型及其与最近邻算法、神经网络、Kernel Method 的比较。最后介绍了 RBF 模型的 regularization  问题。

课程提纲 :

1、what is RBF

2、RBF and nearest neighbors

3、RBF and neural networks

4、RBF and kernel methods

5、RBF and regularization

1、what is RBF

RBF 是基于半径的一个模型。因为训练集中的每一个点都会对训练集(h(x))造成影响,但是影响的方式会因问题而异。这一节课主要讨论的是训练集中的点对模型的影响是基于:||X-Xn|| 的形式的。也就是说是基于半径的(based on radial )。

标准形式:(下面的模型是高斯分布模型,当然也可以用其它的模型,但是既然是radial based,那么就必须得存在||x-xn||项)

有了模型,我们还需要学习它的参数,上述公式中的参数主要有两个:wn 和 γ。γ 会影响高斯分布曲线的形状(肥瘦)。现在暂时放下 γ 参数,先来看看如何学习 wn。

学习的前提是要有一个指导方针。这里的指导方针就是h(xm) == ym。 其中 ym 是数据的真实值(对于分类问题就是标签)。

所以我们的问题就是解下面的方程:(为了一致性,下述公式中的xm对应上述公式的 xn,下述公式中的 xn 对应上述公式中的 x)

用矩阵表示如下:

如果矩阵可逆,则有:(听说可以利用插入法求解)

到目前为止,我们可以成功的利用训练数据求得参数 W ,一切都很顺利,那么是不是说明只要我们再把 γ 求出来就可以了呢?

答案是否定的,因为这里存在一个过拟化的问题。显然上述的方法得到的解,对于样本内数据来说,误差为 0,之前说过,这并不是一件好事,因为这样会导致泛化能力减弱。这里利用到的解决方法是:聚类。

2、RBF and nearest neighbors

对于第一点中提到的过拟化问题,可以利用聚类方法进行解决。

基本思路:利用某种方法(比如:k-means)把训练数据聚成 k 个类。每个聚类中心代表该类进行训练。

因此模型变为:

针对上述模型,存在两个问题:

1、如何选择 k 个中心点。

2、如何学习 wk。

第一点可以利用 k-means 方法解决。现在主要看看第二点:

由于现在参数 wk 变为k个,因此该模型会存在误差,有:

通过解上述方程,我们可以求出 W(具体怎么解?还得恶补线性代数。。。)

现在剩下的问题就是如何求解 γ 了。下面用到的方法叫做:混合高斯模型的期望最大化(EM algorithm in mixture of Gaussians)

第一步:固定 γ,求解 W

第二步:固定W,求出使模型误差最小时对应的 γ。

第三步:跳回第一步,直到满足终止条件。(迭代m次等。)

3、RBF and neural networks

通过上面步骤,已经可以求解出 RBF 模型了。现在看看其与神经网络的比较:

通过上图我们可以知道:

1、RBF network 和 neural network 在形式上是一致的。

2、对于 RBF network  第一级输入参数是固定的:||x-μi||,但是对于 neural network,对应的参数需要通过反向传播进行学习。

3、对于 RBF network  当第一级输入值很大的时候,对应节点的输出会变得很小(高斯模型),而对于 neural network 则不存在这一特点,根具体节点使用的函数有关。

4、RBF and kernel methods

再来看看 RBF 与 SVM kernel 的对比。

首先在形式上:

SVM kernel:                                                                                                     RBF:

       
  

对于 RBF ,增加额外的参数b,并且转变为而分类问题。这样是为了更方便地与 SVM kernel 比较。

我们关心的第一个问题是:它们的表现如何? 下面的图显示了这两个模型的表现(绿色线表示目标函数 ):

可以看到,虽然是来自两个不同世界的模型,但是他们的表现却很接近(SVM 更好一点),不过在具体的问题中,很难说清楚谁的效果更好。

注意,上图中RBF 用到的聚类数量 k == svm 中的支持向量数。

5、RBF and regularization

注意:关于聚类中的 k 如何选择?我开始认为是否可以计算出 VC 维作为参考?在课堂最后的时候学生也问到这个问题,不过教授说不能这样做。是 k -> VC 而不是 VC->k.

时间: 2024-08-28 12:15:35

加州理工学院公开课:机器学习与数据挖掘_Radial Basis Function(第十六课)的相关文章

加州理工学院公开课:雷蒙保罗MAPA泛化理论(第六课)

课程简介: 本次课程主题为"泛化理论",介绍了机械学习相关课程,重点介绍与之相关的公式推导及其应用.是这一整套课程中最具理论的课程,如果读者理解了该部分内容,那么对于后面课程的理解将会有很大的帮助. 课程大纲: 1.证明 mH(N) 是多项式( Proof that mH(N) is polynomial ) 2.证明 mH(N) 能够代替 M( Proof that mH(N) can replace M ) 说明:以下证明均是针对二分类! 首先要弄明白的两个问题是为什么需要证明上述

加州理工学院公开课:机器学习与数据挖掘_VC 维(第七课)

课程简介: 本讲通过回顾上一讲内容,引出了VC维的定义,它是由统计学习理论定义的有关函数集学习性能的一个重要指标.并通过例子证明函数集的VC维就是它能打散的最大样本数目.课程最后介绍VC维的应用,指出它反映了函数集的学习能力,VC维越大则学习机器越复杂 课程大纲: 1.定义(The definition) 2.感知器的 VC 维(VC dimension of perceptrons) 3.VC 维的解释(Interpreting the VC dimension) 4.边界的泛化(Genera

加州理工学院公开课:机器学习与数据挖掘_Three Learning Principles(第十七课)

课程简介 : 这一节课主要讲述机器学习中应该注意的事项,包括:Occam's Razor.Sampling Bias.Data Snooping. 课程提纲 : 1.Occam's Razor. 2.Sampling Bias. 3.Data Snooping. 1.Occam's Razor. 爱因斯坦曾经说过一句话: An explanation of the data should be made as simple as possible, but no simpler. 软件工程中也有

加州理工学院公开课:机器学习与数据挖掘_过拟化(第十一课)

课程简介 本节课主要介绍了关于机器学习中的过拟化问题.作者指出,区别一个专业级玩家和业余爱好者的方法之一就是他们如何处理过拟化问题.通过该课程,我们可以知道样本数据的拟合并不是越高越好,因为噪声的存在将使得过拟化问题的出现.最后简介了处理过拟合的两种方法. 课程大纲 1.什么是过拟化?(what is overfitting?) 2.过拟化中的噪声.(The role of noise) 3.确定性噪声.(Deterministic noise) 4.如何处理过拟化问题.(Dealing wit

加州理工学院公开课:机器学习与数据挖掘_偏差与方差权衡(第八课)

课程简介: 在回顾了VC分析之后,本节课重点介绍了另一个理解泛化的理论:偏差与方差,并通过学习曲线的运用比较了VC分析和偏偏差方差权衡的不同用途. 课程大纲: 1.偏差与方差的权衡 2.学习曲线 1.偏差与方差的权衡 在上一节课:VC 维中,我们求出了 Eout 的边界,Eout < Ein + Ω.该公式描述了 Eout 的边界.现在让我们从不同的角度来分析 Eout. 我们把 Eout 分解为两部分: 1.假设集 H 近似 f 的能力(即 H 中与 f 距离最小的 G 与 f 的误差大小 )

加州理工学院公开课:机器学习与数据挖掘_误差和噪声(第四课)

这一课的主题是:误差分析与噪声处理. 该课时的主要内容如下: 1.Nonlinear Transformation(Continue)(非线性转换(续)) 2.Error Measure (误差度量)(重点) 3.Noisy Targets(噪声指标)(重点) 4.Preamble to the Theory(理论热身) 1.Nonlinear Transformation: 在上一节课的最后,作者举了一个关于非线性转换的例子.通过该例子我们可以直观的看到非线性的数据可以被转化成线性的数据并且利

加州理工学院公开课:机器学习与数据挖掘_线性模型

这一课时主要是讲述了线性模型的一些处理. 包括: 1.输入数据的表示(Input Representation) 2.线性分类(Linear Classification) 3.线性回归(Linear Regression) 4.非线性模型转换(Nonlinear Transformation) 作者认为,如果要测试某个模型的可用性,做好就是用真实数据. 为了讲解线性模型如何应用,作者利用线性模型来解决邮局数据辨别问题: 由于不同的人有不同的书写习惯,对于同一个数字其书写形式可能各异,但是其基本

加州理工学院公开课:机器学习与数据挖掘_Regularization(第十二课)

课程简单介绍: 接上一节课,这一节课的主题是怎样利用 Regularization 避免 Overfitting.通过给如果集设定一些限制条件从而避免  Overfitting,可是如果限制条件设置的不恰当就会造成 Underfitting. 最后讲述了选择 Regularization 的一些启示式方法. 课程大纲: 1.Regularization 2.Weight decay 3.Choosing a regularizer 1.Regularization R 有两种方法: 1) Mat

加州理工学院公开课:机器学习与数据挖掘_训练与测试(第五课)

课程简介: 本视频为机器学习系列课程第5章.主要定量研究训练与测试之间的关系,并引入学习模型中的一个重要概念--断点.课程深入浅出,从正射线.正区间和凸集三个具体例子入手,寻找突破点,从而得出训练集与测试集的关系. 课程大纲(Outline): 1.从训练到测试(From Training to Testing) 2.举例说明(Illustrative Examples ) 3.关键概念---- 断点(Key Notion --- Break Point ) 4.难题(Puzzle) 1.从训练