牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

个人总结:

1、这一篇文章主要是证明性的东西为主,所以说数学公式相对较多,原文笔记作者省略了一些东西,没有和上文很好衔接,所以初学者不一定看明白,建议结合斯坦福机器学习原文讲义(是英文的,没找到有全文中文翻译版的)看一看,如果刚入门对公式的推导就迷糊,说明你有必要去学一些数学基础。

2、结合上一篇文章中提到的梯度下降方法,本文提出了一种更快的迭代方法,叫牛顿方法。原文中公式(1)都能看懂,一转眼怎么就变公式(2)了呢?不知有没有对此迷糊的朋友,其实原文作者这么写确实存在误会,实际上公式(2)不应该写成f(theta)的形式,而是L(theta),而L(theta)是谁?就是上篇文章中提到的似然估计函数:

写成对数形式为:

求导后:

所以说公式(2)中的f‘(theta)其实就是,而f‘‘(theta)就是对上式再次求导。

3、上文中提到牛顿方法迭代速度快,并提到它是二次收敛,想必很多人想问啥是二次收敛,为啥就快呢?简单的说就是牛顿方法考虑了梯度的梯度,在二阶函数中可以直接找到最快的下降方法,一步到位,实际上它是采用二次曲面去拟合当前位置的曲面,而梯度下降是用平面去拟合当前曲面。如果你还不理解,看下面这张来自wiki的图,

红色的线是牛顿法,绿色的线是梯度下降法,通俗的理解就是梯度下降属于贪心算法,走一步看一步,每次都选当前梯度最大方向下降,而牛顿法可以考虑梯度的梯度,具有全局眼光,它会考虑你走完一步后的梯度是否会变大,所以更符合真实的最优下降策略。这里面涉及的一些理论、数学证明以及凸优化理论可以参考:最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?以及梯度-牛顿-拟牛顿优化算法和实现

4、关于上篇文章中最后提到的问题,为什么逻辑回归算法与最小二乘法最后公式的形式很像,本文已给出证明,它们都属于指数分布家族,而且借此引出了广义线性回归的模型,这部分数学推导较多,数学基础不是很好的可以看下英文讲义原文,实在看不懂就记个结论吧。

5、关于牛顿方法,上文提过,有一个H(n*n,实际为(n+1)*(n+1)包括x0截距项,n为属性个数)矩阵,所以n不能太大,牛顿方法可以与随机梯度下降结合使用,先利用随机梯度下降找到最优值附近的点,再利用牛顿法,效果会更好一些。

6、关于多分类的问题,实际上是二分类的一种推广,对于多分类的问题,多使用树模型,回归树、分类树等

时间: 2024-10-01 02:19:56

牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4的相关文章

斯坦福ML公开课笔记13B-因子分析模型及其EM求解

转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/37559995 本文是<斯坦福ML公开课笔记13A>的续篇.主要讲述针对混合高斯模型的问题所采取的简单解决方法,即对假设进行限制的简单方法,最后引出因子分析模型(Factor Analysis Model),包括因子分析模型的介绍.EM求解等. 斯坦福ML公开课笔记13B-因子分析模型及其EM求解,布布扣,bubuko.com

斯坦福ML公开课笔记14——主成分分析

上一篇笔记中,介绍了因子分析模型,因子分析模型使用d维子空间的隐含变量z来拟合训练数据,所以实际上因子分析模型是一种数据降维的方法,它基于一个概率模型,使用EM算法来估计参数. 本篇主要介绍PCA(Principal Components Analysis, 主成分分析),也是一种降维方法,但是该方法比较直接,只需计算特征向量就可以进行降维了.本篇对应的视频是公开课的第14个视频,该视频的前半部分为因子分析模型的EM求解,已写入笔记13,本篇只是后半部分的笔记,所以内容较少. 斯坦福ML公开课笔

斯坦福ML公开课笔记15—隐含语义索引、神秘值分解、独立成分分析

斯坦福ML公开课笔记15 我们在上一篇笔记中讲到了PCA(主成分分析). PCA是一种直接的降维方法.通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果. 本文继续PCA的话题,包含PCA的一个应用--LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现--SVD(Singular Value Decomposition,神秘值分解). 在SVD和LSI结束之后.关于PCA的内容就告一段落. 视频的后半段開始讲无监督学习的一种--IC

斯坦福ML公开课笔记15—隐含语义索引、奇异值分解、独立成分分析

斯坦福ML公开课笔记15 我们在上一篇笔记中讲到了PCA(主成分分析).PCA是一种直接的降维方法,通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果. 本文继续PCA的话题,包括PCA的一个应用--LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现--SVD(Singular Value Decomposition,奇异值分解).在SVD和LSI结束之后,关于PCA的内容就告一段落.视频的后半段开始讲无监督学习的一种--ICA(I

斯坦福ML公开课笔记13A——混合高斯模型、混合贝叶斯模型

本文对应公开课的第13个视频,这个视频仍然和EM算法非常相关,第12个视频讲解了EM算法的基础,本视频则是在讲EM算法的应用.本视频的主要内容包括混合高斯模型(Mixture of Gaussian, MoG)的EM推导.混合贝叶斯模型(Mixture of Naive Bayes,MoNB)的EM推导.因子分析模型(Factor Analysis Model)及其EM求解.由于本章内容较多,故而分为AB两篇,本篇介绍至混合模型的问题. 很久没有写这个系列的笔记了,各种事情加各种懒导致的.虽然慢

线性规划、梯度下降、正规方程组——斯坦福ML公开课笔记1-2

几个常见问题: 1.为什么损失函数采用最小二乘法,而不是绝对值形式,也不采用最小三乘法?关于这个问题的答案,后面的课程会给出,主要是从最大似然函数角度给出的合理化解释,如果你追问,最大似然函数就代表科学的.合理的吗?那你听说过大数定律.极限中心定律吗?感觉有点像哲学问题了. 2.梯度下降法中提到学习率的问题,我们的目标函数是一个凸二次函数(就是你吃饭的碗的形状),我们知道学习率大会导致震荡,太小会走的慢,那么有没有必要动态调节这个学习率的大小,刚开始下降时可以先大,快收敛时再变小?这个是没有必要

机器学习-牛顿方法&amp;指数分布族&amp;GLM

本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient descent)].在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为其实梯度下降属于一种优化方法,但梯度下降找到的是局部最优解.如下图: 本节首先讲解的是牛顿方法(NewTon's Method).牛顿方法也是一种优化方法,它考虑的是全局最优.接着还会讲到指数分布族和广义线性模型.下面来详细

Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”

Coursera公开课笔记: 斯坦福大学机器学习第七课"正则化" NLPJob 斯坦福大学机器学习第七课"正则化"学习笔记,本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读

斯坦福iOS7公开课10笔记及演示Demo

这一节主要介绍了多线程中的串行队列以及滚动视图UIScrollView. 一 .多线程 这一节只是简单介绍了多线程的串行队列,即把任务加入线程队列后按顺序逐步执行. (1)目前iOS多线程提供的方法主要是GCD和NSOperation,前者是C语言级别的,后者是经过封装,更具有面向对象特性的API. (2)UI交互操作都是在主线程进行,所以为了保证交互过程的流程舒适,类似于下载等耗时操作就需要主线程外执行,否则将出现用户无法对手机进行操作的场景. 这时通过多线程,就可以使下载图片等耗时操作单独进