第三章 广义线性模型(GLM)

广义线性模型

前面我们举了回归和分类得到例子。在回归的例子中,$y \mid x;\theta \sim  N(u,\sigma ^{2})$,在分类例子中,$y\mid x;\theta \sim  Bbernoulli(\phi)$

广义线性模型是基于指数函数族的,指数函数族原型为:

$p(y;\eta) = b(y)exp(\eta^{T}T(y)-a(\eta))$

$\eta$为自然参数,$T(y)$为充分统计量,一般情况下$T(y)=y$。选择固定的T,a,b定义一个分布,参数为$\eta$。

对于伯努利分布(均值为$\phi$),有:

$p(y=1,\phi)=\phi;p(y=0;\phi)=1-\phi$

$p(y;\phi) = \phi^{y}(1-\phi)^{1-y}$

$p(y;\phi) = exp(ylog\phi +(1-y)log(1-\phi))$

$p(y;\phi) = exp((log(\frac{\phi}{1-\phi}))y+log(1-\phi))$

因此有:

$T(y) = y$

$a(\eta) = -log(1-\phi)$

$a(\eta) = log(1+e^{\eta})$

$b(y)=1$

对于高斯分布,有:

$p(y;u) = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-u)^{2})$

$p(y;u) = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^{2})\cdot exp(uy=\frac{1}{2}u^{2})$

因此有:

$\eta = u$

$T(y) = y $

$a(\eta) = \frac{u^{2}}{2} = \frac{\eta^{2}}{2}$

$b(y) = (\frac{1}{\sqrt{2\pi}})exp(-\frac{1}{2}y^{2})$

构造GLM

1. $y \mid x;\theta \sim  ExponentialFamily(\eta)$

2. 给定x,我们的目标是预测T(y),大部分情况下T(y)=y,因此我们可以选择预测输出h(x),$h(x) =E\left [ y \mid x \right ]$

3. 自然参数$\eta$和输入x是线性相关的,$\eta = \theta^{T}x$

普通最小二乘法

普通最小二乘法是GLM模型的一种特例:y是连续的,给定x后的y的条件分布是高斯分布$N(u,\sigma^{2})$。因此令指数函数族的分布为高斯分布。正如前面,高斯分布U作为指数函数族时,$u=\eta$。因此有:

$h_{\theta}(x) = E\left [ y \mid x ; \theta \right ] = u = \eta =\theta^{T}x$

逻辑回归

逻辑回归中y只取0和1,因此使用伯努利分布作为指数函数族的分布,因此$\phi = \frac{1}{1+e^{-\eta}}$。进一步,由$y \mid x;\theta \sim Bernoulli(\phi)$,则$E\left [ y \mid x;\theta \right ] = \phi $,得到:

$h_{\theta}(x) =  E\left [ y \mid x ; \theta \right ] $

$h_{\theta}(x) = \phi $

$h_{\theta}(x) = \frac{1}{1+e^{-\eta}}$

$h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}$

softmax回归

在逻辑回归中,y离散取值只有两个,现在考虑当y取多个值的情况,$y\in {1,2,...,k}$。

为了参数化具有k个可能的输出的多项式,我们可以使用k个参数$\phi_{1},...,\phi_{2}$来表示每个输出的概率。但是这些参数是冗余的,因为这k个参数之和为1。所以我们只需要参数化k-1个变量:$\phi_{i} = p(y=i;\phi) ~~ p(y=k;\phi) = 1-\sum_{i=1}^{k-1}\phi_{i}$,为了方便,我们令$\phi_{k}= 1-\sum_{i=1}^{k-1}\phi_{i}$,但记住它并不是一个参数,而是由其它k-1个参数值决定。

为了使多项式为指数函数族分布,定义以下$T(y) \in R^{k-1}$:

$  T(1) =\begin{bmatrix} 1\\ 0\\ 0\\ \vdots \\0 \end{bmatrix}$

$  T(2) =\begin{bmatrix} 0\\ 1\\ 0\\ \vdots \\0 \end{bmatrix}$

$  T(k-1) =\begin{bmatrix} 0\\ 0\\ 0\\ \vdots \\1 \end{bmatrix}$

$  T(k) =\begin{bmatrix} 1\\ 0\\ 0\\ \vdots \\0 \end{bmatrix}$

跟前面不同的是,这里T(y)并不等于y,T(y) 在这里是一个k-1维向量,而不是一个实数。令$(T(y))_{i}$表示$T(y)$的第i个元素。

接着定义一个函数$1{\cdot}$,当参数为true时,函数值为1,反之为零。例如 1{2=3}=0.

因此,$(T(y))_{i}=1{y=i}$,进一步我们有$E[(T(y))_{i}]=P(y=i)=\phi_{i}$。

接下来说明该多项式也属于指数函数族:

$p(y;\phi) = \phi_{1}^{1\{y=1\}} \phi_{2}^{1\{y=2\}} \cdots \phi_{k}^{1\{y=k\}}$

$p(y;\phi) = \phi_{1}^{1\{y=1\}} \phi_{2}^{1\{y=2\}} \cdots \phi_{k}^{1-\sum_{i=1}^{k-1}(T(y))_{i}}$

$p(y;\phi) = \phi_{1}^{(T(y))_{1}} \phi_{2}^{(T(y))_{2}} \cdots \phi_{k}^{1-\sum_{i=1}^{k-1}(T(y))_{i}}$

$p(y;\phi) = exp((T(y))_{1}log(\phi_{1}) + (T(y))_{2}log(\phi_{2}) + \cdots + (1-\sum_{i=1}^{k-1}(T(y))_{i})log(\phi_{k}))$

$p(y;\phi) =exp((T(y))_{1}log(\phi_{1}/\phi_{k})+  (T(y))_{2}log(\phi_{2}/\phi_{k})+\cdots+(T(y))_{k-1}log(\phi_{k-1}/\phi_{k})+log(\phi_{k}))$

$p(y;\phi) = b(y)exp( \eta^{T}T(y)-a(\eta))$

其中:

$  \eta =\begin{bmatrix} log(\phi_{1}/\phi_{k})\\ log(\phi_{2}/\phi_{k})\\ \vdots \\log(\phi_{k-1}/\phi_{k}) \end{bmatrix}$

$a(\eta)=-log(\eta_{k})$

$b(y)=1$

因此有以下函数关系式:

$\eta_{i}= \frac{\phi_{i}}{\phi_{k}}$

为了方便,我们定义:

$\eta_{k} = 0$

因此我们得到以下关系式:

$e^{\eta_{i}}= \frac{\phi_{i}}{\phi_{k}}$

$\phi_{k}e^{\eta_{i}} = \phi_{i}$

$\phi_{k}\sum_{i=1}{k}e^{\eta_{i}}=1$

因此我们得到以下响应函数:

$\phi_{i}= \frac{e^{\eta_{i}}}{\sum_{j=1}^{k}e^{\eta_{j}}}$

这种$\eta$到$\phi$的映射函数称为softmax函数。

令$\eta_{i}=\theta_{i}^{T}x ~~(i=1,2,...,k-1),\theta_{1},...,\theta_{k-1}\in R^{n+1}$

因此有以下条件分布:

$p(y=1 \mid x;\theta) = \phi_{i}$

$p(y=1 \mid x;\theta) = \frac{e^{\eta_{i}}}{\sum_{j=1}^{k}e^{\eta_{j}}}$

$p(y=1 \mid x;\theta) = \frac{e^{\theta_{i}^{T}x}}{\sum_{j=1}^{k}e^{\theta_{j}^{T}x}}$

损失函数:

最大似然估计:

时间: 2024-08-05 07:23:18

第三章 广义线性模型(GLM)的相关文章

机器学习—广义线性模型(GLM)

逻辑回归是广义线性模型的一种特殊情况,但是在前面这篇http://blog.csdn.net/zhangzhengyi03539/article/details/46574803 讲逻辑回归的时候没有说明为什么要采用单极型函数,这篇文章将会从浅入深的讲解一下广义线性模型. 一.指数分布族(ExponentialFamily). 如果一个分布函数可以写成如下的形式 p(y,η)=b(y)eηTT(y)?a(η)(1) η:自然参数,标准参数,规范参数 T(y):充分统计量 a(η):对数分函数 其

广义线性模型(GLM)

一.广义线性模型概念 在讨论广义线性模型之前,先回顾一下基本线性模型,也就是线性回归. 在线性回归模型中的假设中,有两点需要提出: (1)假设因变量服从高斯分布:$Y={{\theta }^{T}}x+\xi $,其中误差项$\xi \sim N(0,{{\sigma }^{2}})$,那么因变量$Y\sim N({{\theta }^{T}}x,{{\sigma }^{2}})$. (2)模型预测的输出为$E[Y]$,根据$Y={{\theta }^{T}}x+\xi $,$E[Y]=E[{{

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

Andrew机器学习课程的学习总结1:监督学习的一种方法论,广义线性模型(GLM)的方法学

1.   监督学习的一种方法学,广义线性模型(GLM)的方法学 [转载时请注明来源]:http://www.cnblogs.com/aria313 ——根据Andrew Ng 2008年课程的第1~4节,以及相关的讲义notes 1,进行总结 网易公开课地址:http://study.163.com/plan/planMain.htm?id=1200146 2015.8.14 1.1.  总体核心 监督学习Supervised learning: 有样本集合,样本是标准的正确答案:以此为根据学习

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在<数学之美>中提到,Google是利用逻辑回归预测搜索广告的点击率.因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么.幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解.与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因

西瓜书第三章 线性模型

读书笔记 周志华老师的<机器学习> 因为边看边记,所以写在随笔里,如果涉及版权问题,请您联系我立马删除,[email protected] 3.1 基本形式 给定d个属性描述的示例 x = (x_1;x_2;...;x_3), 其中x_i是X在第i个属性上的取值,线性模型视图学得一个通过属性的线性组合来进行预测的函数,即 f(x) = w_1*x_1 + w_2*x_2 + ... + w_d*x_d + b, 向量形式 其中 w = (w_1;w_2;...;w_d). w直观表达了各属性在

R语言实战(八)广义线性模型

本文对应<R语言实战>第13章:广义线性模型 广义线性模型扩展了线性模型的框架,包含了非正态因变量的分析. 两种流行模型:Logistic回归(因变量为类别型)和泊松回归(因变量为计数型) glm()函数的参数 分布族 默认的连接函数 binomial (link = "logit") gaussian (link = "identity") gamma (link = "inverse") inverse.gaussian (lin

指数分布族与广义线性模型

整理一下之前所学过的关于回归问题的思路: 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格: 学习过程:构建模型h(θ): 线性回归:最小二乘法.梯度下降法.线性模型的概率解释: 局部加权回归:带权重的线性回归.权值的钟形函数: 逻辑回归:分类方法.梯度上升法.牛顿法.引出感知机学习算法: 广义线性模型:指数分布族.给定概率分布推导出线性模型. 这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知: 在线性回归模型的概率解释中假设: 在逻辑回归模型的推导中假

机器学习 —— 基础整理(五):线性回归;二项Logistic回归;Softmax回归;广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号