斯坦福《机器学习》Lesson4感想-------2、广义线性模型

在前面几篇中分类问题和回归问题里涉及到的伯努利分布和高斯分布都是广义线性模型(Generative Linear Models.GLMs)的特例。下面将详细介绍广义线性模型。

1、指数族

我们可以将一些分布总结到一个指数族中。指数族可表示为:

η是指naturalparameter/canonical parameter,T (y)是指sufficientstatistic, a(η)是指logpartition function。T、a和b的选择决定了分布族,η的改变会得到这个分布族里的不同分布函数。

伯努利分布和高斯分布都是指数族分布的例子。首先伯努利分布可以如下表示:

因此可以得到以下结果:

这表明伯努利分布可以通过选择适当的T、a和b用指数族的形式表示。其次高斯分布可表示为:

同理可得以下结果:

2、构建广义线性模型

一般针对一个问题要用到广义线性模型,我们基本都遵循以下三个假设。

(1)y | x; θ ∼ ExponentialFamily(η).先根据数据假设y服从某一指数族分布。

(2)选择一个假设函数满足h(x) =E[y|x]。根据这个,我们可以预测x对应的y值或者进行分类。

(3),如果η是矢量,

下面将通过最小二乘法和Logistic回归熟悉构建广义线性模型的步骤。

2.1 最小二乘法

最小二乘法针对的是连续型的数值。y满足高斯分布。所以根据假设(1)可得μ = η。根据假设(2)和假设(3)可得:

2.2 Logistic回归

伯努利分布是针对二元分类问题的指数族分布。y|x; θ ∼ Bernoulli(φ),从1、指数族中的分析可以知道根据假设(2)(3)可以得到以下结果:

3、Softmax回归

当分类问题不再是二元而是k元的时候,即y∈{1,2,…,k}。我们可以利用构建广义线性模型来解决这个分类问题。具体步骤如下。

假设y服从指数族分布,φi = p(y = i; φ)并且可知。所以。我们还定义

此外1{·}代表括弧里的条件为真式整个式子的值为1,否则为0。所以(T (y))i = 1{y = i}。从概率论的知识可知,E[(T (y))i] = P (y = i) = φi 。所以我们可以得到:

所以

所以

定义ηk =log(φk/φk) = 0,所以

所以

所以softmax函数可以如下表示:

根据假设(3),并定义θk = 0,所以可以得到Softmax回归:

根据假设(2)可知

因此可知道最大似然概率的计算为:

而接下来要确定最大似然概率,从而去确定假设函数到最终确定分类结果。可以接着前面的梯度上升或者牛顿迭代法来求取。

这就是基本的利用广义线性模型求解的过程。确定y服从的分布,然后确定T、a、b、η,然后得到假设函数的基本模型,然后利用最大似然规律或者其他方法求得最贴近的参数值,从而能够得到最贴近真实的假设函数来解决问题。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-06 11:51:49

斯坦福《机器学习》Lesson4感想-------2、广义线性模型的相关文章

机器学习笔记—再谈广义线性模型

前文从线性回归和 Logistic 回归引出广义线性回归的概念,很多人还是很困惑,不知道为什么突然来个广义线性回归,有什么用?只要知道连续值预测就用线性回归.离散值预测就用 Logistic 回归不就行了?还有一些概念之间的关系也没理清,例如线性回归和高斯分布.Logistic 回归和伯努利分布.连接函数和响应函数. 这种困惑是可以理解的,前文为了引导快速入门,从实战解题的角度推出了答案,但对其背后的概率假设解释不足,虽然线性回归专门开辟一节来介绍高斯分布假设,但很多人误以为这一节的目的只是为了

斯坦福机器学习实现与分析之四(广义线性模型)

指数分布族 首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式: \(\begin{aligned} p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))\end{aligned}\) 一般的很多分布(如高斯分布,泊松分布,二项式分布,伽马分布等)都属于指数分布族.该分布族有很多良好的特性,参见<Generalized Linear Models (2nd ed.)>一书3.3节. 广义线性模型构建假设 广义线性模型主要基于以下假设:

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在<数学之美>中提到,Google是利用逻辑回归预测搜索广告的点击率.因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么.幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解.与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

机器学习 —— 基础整理(五):线性回归;二项Logistic回归;Softmax回归;广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号

机器学习-广义线性模型

广义线性模型是把自变量的线性预测函数当作因变量的估计值.在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵模型,Logistic回归,softmax回归,等等.今天主要来学习如何来针对某类型的分布建立相应的广义线性模型. Contents 1. 广义线性模型的认识 2. 常见概率分布的认识 1. 广义线性模型的认识 首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下 为自然参数,它可能是一个向量,而叫做充分统计量,也可能是一个向量,通常来说. 服从高斯分布,

牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

个人总结: 1.这一篇文章主要是证明性的东西为主,所以说数学公式相对较多,原文笔记作者省略了一些东西,没有和上文很好衔接,所以初学者不一定看明白,建议结合斯坦福机器学习原文讲义(是英文的,没找到有全文中文翻译版的)看一看,如果刚入门对公式的推导就迷糊,说明你有必要去学一些数学基础. 2.结合上一篇文章中提到的梯度下降方法,本文提出了一种更快的迭代方法,叫牛顿方法.原文中公式(1)都能看懂,一转眼怎么就变公式(2)了呢?不知有没有对此迷糊的朋友,其实原文作者这么写确实存在误会,实际上公式(2)不应

广义线性模型 - Andrew Ng机器学习公开课笔记1.6

转载请注明出处:http://www.cnblogs.com/BYRans/ 前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量:h(x)称为基础度量值(base measure): η称为分布的自然参数(natural para

Andrew机器学习课程的学习总结1:监督学习的一种方法论,广义线性模型(GLM)的方法学

1.   监督学习的一种方法学,广义线性模型(GLM)的方法学 [转载时请注明来源]:http://www.cnblogs.com/aria313 ——根据Andrew Ng 2008年课程的第1~4节,以及相关的讲义notes 1,进行总结 网易公开课地址:http://study.163.com/plan/planMain.htm?id=1200146 2015.8.14 1.1.  总体核心 监督学习Supervised learning: 有样本集合,样本是标准的正确答案:以此为根据学习