(笔记)斯坦福机器学习第四讲--牛顿法

本讲内容

1. Newton‘s method(牛顿法)

2. Exponential Family(指数簇)

3. Generalized Linear Models(GLMs)(广义线性模型)

1.牛顿法

假如有函数, 寻找使得

牛顿法的步骤如下:

(1) initialize  as some value. 上图中用  初始化 的值

(2) 在这一点上对f求值得到,之后计算这一点的导数值

(3) 作该点的切线,得到与横轴的交点的值,此为牛顿法的一次迭代。

更新公式为

         

我们可以使用牛顿法取代梯度上升法作极大似然估计

对对数似然函数, want  s.t. 

对于一次迭代,

通常来说,牛顿法对函数f有一定的要求(具体没说),牛顿法对logistic函数效果很好。

的初始值并不会对牛顿法收敛的结果产生影响。

牛顿法的收敛属于二次收敛(每一次迭代都会使误差的数量级乘方),正常情况下速度会比二次收敛慢,但是依然比梯度下降法快。

牛顿法的一般化:

H is the Hessian matrix(黑塞矩阵) 

牛顿法的缺点是,当特征数量过大的时候,求黑塞矩阵的逆会耗费相当长的时间。

2.指数簇

指数簇的一般形式

 -自然参数(natural parameter)

- 充分统计量(sufficient statistic) 通常情况下(伯努利分布或者高斯分布): 

固定a,b,T, 改变的值, 会得到一组不同的概率分布。

伯努利分布和高斯分布都是指数分布簇的特例

对于伯努利分布

     

 

 

对于高斯分布

考虑到方差对最终结果没有影响, 在这里设置

     

指数分布族还包括很多其他的分布: 
多项式分布(multinomial) 
泊松分布(poisson):用于计数的建模 
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模 
β分布Dirichlet分布:对小数建模

3.广义线性模型(GLMS)

为了导出广义线性模型,首先制定三个假设:

(1) 

(2) Given , goal is to output 

    want 

(3)   即自然参数与特征向量之间是线性相关的

对于伯努利分布

   

在上节的指数簇中推导出   

而根据假设(3)

我们的目标是输出  

由上节知 

而  

     

      

该函数即为logistic 函数

对于高斯分布

在最小二乘估计中,我们假设响应变量是连续的,且服从高斯分布 

我们的目标是输出

由上节知 

      

      

顺带一提

正则响应函数(canonical response function): 
正则链接函数(canonical link function):

4.Softmax回归(多类分类问题)

多项式分布 

这k个参数是冗余的,所以 我们定义 

在后面的过程中,我们将不使用  这个参数

多项式分布属于指数分布簇,但是 

在这里按照如下定义

    ...   

都是k-1维的向量

引入指示函数

用   表示向量 的第个元素,则 

where 

反过来,

为了减少参数冗余,定义

由GLMS的假设3:  

所以我们可以得到需要的假设

这种方法是logistic回归的推广,应用于多分类问题。

优化目标依然是极大似然估计

其中

使用梯度上升法或者牛顿法解得最优参数

第四讲完。

  

时间: 2024-10-26 22:22:47

(笔记)斯坦福机器学习第四讲--牛顿法的相关文章

(笔记)斯坦福机器学习第六讲--朴素贝叶斯

本讲内容 1. Naive Bayes(朴素贝叶斯) 2.Event models(朴素贝叶斯的事件模型) 3.Neural network (神经网络) 4.Support vector machines(支持向量机) 1.朴素贝叶斯 上讲中的垃圾邮件问题有几个需要注意的地方: (1)  一个单词只有出现和不出现两种可能,因此每个特征x只有两个取值 (2) 特征向量x的个数应该等于词典的长度,比如  将该算法一般化: (1) 让 可以取更多的值 此时  服从多项式分布,而不再是伯努利分布.一种

(笔记)斯坦福机器学习第七讲--最优间隔分类器

本讲内容 1.Optional margin classifier(最优间隔分类器) 2.primal/dual optimization(原始优化问题和对偶优化问题)KKT conditions(KKT条件) 3.SVM dual (SVM的对偶问题) 4.kernels (核方法) 1.最优间隔分类器 对于一个线性可分的训练集合,最优间隔分类器的任务是寻找到一个超平面(w,b), 使得该超平面到训练样本的几何间隔最大. 你可以任意地成比例地缩放w和b的值,这并不会改变几何间隔的大小. 例如,

机器学习 第四讲: Logistic Regression

Logistic Regression 之前我们讨论过回归问题,并且讨论了线性回归模型.现在我们来看看分类问题,分类问题与回归问题类似,只不过输出变量一个是离散的,一个是连续的.我们先关注二分类问题,假设 输出变量 y 只能取 0 或者 1 两个值,直观上,对于所有的输入变量,我们都希望可以映射到 [0-1] 的范围内, 为此,我们可以建立如下的函数: hθ(x)=g(θTx)=11+e?θTx 其中, g(z)=11+e?z 称之为 logistic 函数 或者 sigmoid 函数. 很容易

机器学习基石第四讲笔记

第四讲介绍了机器学习是否可行的问题. 1. 从给定的资料D中,找出一个接近目标f的假设g是可行的.比如PLA.但是,找到的这个g能否用于D以外的地方,这就难说了. 2. Hoeffding's inequality回答了g是否能用于D以外的问题: (1)In probability theory, Hoeffding's inequality provides an upper bound on the probability that the sum of random variables d

机器学习中使用的神经网络第四讲笔记

Geoffery Hinton教授的Neuron Networks for Machine Learning的第四讲主要介绍如何使用back propagation算法来学习到词汇的特征表示. Learning to predict the next word 接下来的几小节主要介绍如何使用back propagation算法来学习到词汇的特征表示.我们从一个很简单的例子开始,介绍使用back propagation算法来将词汇间的相关信息转换成特征向量. 下图给出了一个家庭的树状图,我们要做的

斯坦福机器学习公开课学习笔记(1)—机器学习的动机与应用

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 斯坦福机器学习公开课差不多是网上能找到的最好的机器学习入门课程了.现在一共有20节课放到网络上,博主是在网易公开课学的,那里的视频有中文字幕然后课件也很全. (地址:http://v.163.com/special/opencourse/machinelearning.html) 主讲师Andrew Ng(已经被百度诏安了)是华裔科学家,看他的课特别有亲切感.感觉他们的课跟国内老师的课区别还是挺大的

cs229 斯坦福机器学习笔记(一)

前言 说到机器学习,很多人推荐的学习资料就是斯坦福Andrew Ng的cs229,有相关的视频和讲义.不过好的资料 != 好入门的资料,Andrew Ng在coursera有另外一个机器学习课程,更适合入门.课程有video,review questions和programing exercises,视频虽然没有中文字幕,不过看演示的讲义还是很好理解的(如果当初大学里的课有这么好,我也不至于毕业后成为文盲..).最重要的就是里面的programing exercises,得理解透才完成得来的,毕

Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”

Coursera公开课笔记: 斯坦福大学机器学习第七课"正则化" NLPJob 斯坦福大学机器学习第七课"正则化"学习笔记,本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读

Stanford机器学习---第十四讲.机器学习应用举例之Photo OCR

http://blog.csdn.net/l281865263/article/details/50278745 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.内容大多来自Standford公开课machine lear