机器学习—广义线性模型(GLM)

逻辑回归是广义线性模型的一种特殊情况,但是在前面这篇http://blog.csdn.net/zhangzhengyi03539/article/details/46574803 讲逻辑回归的时候没有说明为什么要采用单极型函数,这篇文章将会从浅入深的讲解一下广义线性模型。

一、指数分布族(ExponentialFamily)。

如果一个分布函数可以写成如下的形式

p(y,η)=b(y)eηTT(y)?a(η)(1)

η:自然参数,标准参数,规范参数

T(y):充分统计量

a(η):对数分函数

其中,T,a,b 确定了参数为η的一种分布函数。

例如,对于伯努利分布~Bernouli(?),p(y=1;?)=?,p(y=0,?)=1?? ,对于不同的? 我们得到不同的伯努利分布函数,这就是伯努利分布族。下面我们可以推导一下,证明伯努利分布~Bernouli(?) 满足上式。

p(y;?)=?y(1??)1?y

    =eylog?+(1?y)log(1??)

    =eylog?1??+log(1??)

对比式(1)可得

η=log?1??

T(y)=y

a(η)=log(1??)

b(y)=1

如果我们求解? 便可得到?=11+e?η,这就是我们前面为什么选择单极性函数的原因,当然到这里你可能还不是特别明白,为什么要这样做,不要着急,继续往下看就会明白了。

二、GLM的三个假设

广义线性模型,顾名思义,线性模型,肯定是基于特征的线性组合的模型。对于y关于x的条件概率和模型设定三个假设:

1、y|x;θ~ExponentialFamily(η) 对于给定的x 和θ ,y 的分布服从参数为η 的指数分布族

2、对于给定的x ,目标是预测给定x 下T(y) 的期望。

3、自然参数η 和输入x 是线性关系:η=θTx (如果η 是向量,那么ηi=θTix )。

对于假设1,没啥难理解的,这个主要是用来限制y|x,θ 的分布的,这个分布要能够写成指数分布族的形式。注意这里的θ 与η

对于假设2,由于,在大多数例子中T(y)=y ,hθ(x)=E(y|x) 。因此,预测T(y) 就是预测y ,简单说就是预测因变量(分类就对应类别标签,回归就是因变量值)。可以看出来这个说的是决策函数。

对于假设3,意味着在任何出现η 的地方,我们都需要用η=θTx 或者ηi=θTix 替换。η 根据假设1应该是指数分布族里面的参数,这里需要全部换成θ

注意到GLM的三个假设只是给了我们一个框架,告诉我们怎么做决策,模型里面的参数θ GLM并没有告诉我们怎么求,但是只要知道每个样本的概率求法(带入GLM框架),我们可以根据极大似然法求解。

三、最小二乘法

讲最小二乘法之前先来看看高斯分布的指数分布族变换

令y|x~N(μ,σ2) ,我们考虑简单情况σ2=1 所以有下式

p(y,μ)=12π√exp(?12(y?μ)2)

    =12π√exp(?12y2)exp(μy?12μ2)

η=μ

T(y)=y

a(η)=12μ2=12η2

b(y)=12π√exp(?12y2)

接下来,根据GLM的三个假设可以得到

hθ(x)=E[y|x;θ]

    =μ

    =η

    =θTx

第一行根据是GLM假设2,第二行根据是高斯分布性质,第三行根据是高斯分布的指数分布族形式,最后一行根据是GLM假设3。

这个就得到了和线性回归里面最小二乘的概率解释相同的公式。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-13 11:58:21

机器学习—广义线性模型(GLM)的相关文章

机器学习-广义线性模型

广义线性模型是把自变量的线性预测函数当作因变量的估计值.在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵模型,Logistic回归,softmax回归,等等.今天主要来学习如何来针对某类型的分布建立相应的广义线性模型. Contents 1. 广义线性模型的认识 2. 常见概率分布的认识 1. 广义线性模型的认识 首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下 为自然参数,它可能是一个向量,而叫做充分统计量,也可能是一个向量,通常来说. 服从高斯分布,

Andrew机器学习课程的学习总结1:监督学习的一种方法论,广义线性模型(GLM)的方法学

1.   监督学习的一种方法学,广义线性模型(GLM)的方法学 [转载时请注明来源]:http://www.cnblogs.com/aria313 ——根据Andrew Ng 2008年课程的第1~4节,以及相关的讲义notes 1,进行总结 网易公开课地址:http://study.163.com/plan/planMain.htm?id=1200146 2015.8.14 1.1.  总体核心 监督学习Supervised learning: 有样本集合,样本是标准的正确答案:以此为根据学习

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在<数学之美>中提到,Google是利用逻辑回归预测搜索广告的点击率.因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么.幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解.与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

机器学习 —— 基础整理(五):线性回归;二项Logistic回归;Softmax回归;广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号

广义线性模型(GLM)

一.广义线性模型概念 在讨论广义线性模型之前,先回顾一下基本线性模型,也就是线性回归. 在线性回归模型中的假设中,有两点需要提出: (1)假设因变量服从高斯分布:$Y={{\theta }^{T}}x+\xi $,其中误差项$\xi \sim N(0,{{\sigma }^{2}})$,那么因变量$Y\sim N({{\theta }^{T}}x,{{\sigma }^{2}})$. (2)模型预测的输出为$E[Y]$,根据$Y={{\theta }^{T}}x+\xi $,$E[Y]=E[{{

第三章 广义线性模型(GLM)

广义线性模型 前面我们举了回归和分类得到例子.在回归的例子中,$y \mid x;\theta \sim  N(u,\sigma ^{2})$,在分类例子中,$y\mid x;\theta \sim  Bbernoulli(\phi)$ 广义线性模型是基于指数函数族的,指数函数族原型为: $p(y;\eta) = b(y)exp(\eta^{T}T(y)-a(\eta))$ $\eta$为自然参数,$T(y)$为充分统计量,一般情况下$T(y)=y$.选择固定的T,a,b定义一个分布,参数为$\

斯坦福机器学习实现与分析之四(广义线性模型)

指数分布族 首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式: \(\begin{aligned} p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))\end{aligned}\) 一般的很多分布(如高斯分布,泊松分布,二项式分布,伽马分布等)都属于指数分布族.该分布族有很多良好的特性,参见<Generalized Linear Models (2nd ed.)>一书3.3节. 广义线性模型构建假设 广义线性模型主要基于以下假设:

斯坦福《机器学习》Lesson4感想-------2、广义线性模型

在前面几篇中分类问题和回归问题里涉及到的伯努利分布和高斯分布都是广义线性模型(Generative Linear Models.GLMs)的特例.下面将详细介绍广义线性模型. 1.指数族 我们可以将一些分布总结到一个指数族中.指数族可表示为: η是指naturalparameter/canonical parameter,T (y)是指sufficientstatistic, a(η)是指logpartition function.T.a和b的选择决定了分布族,η的改变会得到这个分布族里的不同分