广义线性模型的理解

世界中(大部分的)各种现象背后,都存在着可以解释这些现象的规律。机器学习要做的,就是通过训练模型,发现数据背后隐藏的规律,从而对新的数据做出合理的判断。

虽然机器学习能够自动地帮我们完成很多事情(比如训练模型的参数),但有一些基本的事情还是需要我们自己完成的,例如概率分布模型的选择。比如我们需要判断一封邮件是否为垃圾邮件,由于这是一个二分类问题,在众多概率分布模型之中,伯努利分布($P(y=1)=\phi$,$P(y=0)=1-\phi$ 的分布)似乎是一个较好的选择。

但还有一个问题需要解决:$\phi$ 和特征 $X$ 以及模型参数 $\theta$ 之间的关系是什么。我们可以取 $\phi = X^T\theta$ (虽然这样看起来就非常不合理,因为 $\phi$ 的取值可能会超出 0 ~ 1),可以取 $\phi = \begin{cases} 1 & (X^T\theta \ge 0) \\ 0 & (X^T\theta < 0) \end{cases}$ ,还可以有很多很多种选择。

广义线性模型就是众多选择中的一种,它为 $\phi$、$X$ 与 $\theta$ 之间的关系问题提供了一个合理(?)的解决方案(虽然我并不知道广义线性模型比起其它模型有哪些优势- -)。广义线性模型为各个变量之间的关系做出了以下三个限定:

1. 问题的概率模型属于指数族分布;

(exponential family,该分布要求给定参数 $\eta$ 的情况下,$y$ 的概率分布 $p(y;\eta) = b(y)\text{exp}(\eta^TT(y)-a(\eta))$)

2. 指数族分布公式中的 $\eta = X^T\theta$;

3. 模型需要输出给定 $X$ 和 $\theta$ 的情况下,$T(y)$ 的期望。

这样,我们只需要将我们选择的概率分布写成指数族分布的形式,就能求出 $T(y)$ 的期望与 $\eta$ 的关系,再由第 2 个限定就能得出模型的输出值与 $X$ 和 $\theta$ 的关系。

我们将伯努利分布写成指数族分布的形式,看看能发现什么。首先,伯努利分布的概率分布:$$p(y) = \phi^y(1-\phi)^{1-y}$$ 为了得到 exp 的形式,我们对式子取对数再取指数:$$p(y) = \text{exp}(y\text{log}(\phi) + (1-y)\text{log}(1-\phi)) = \text{exp}(y\text{log}(\frac{\phi}{1-\phi})+\text{log}(1-\phi))$$ 我们就能发现指数族分布的形式 $$T(y)=y$$ $$b(y)=1$$ $$\eta = \text{log}(\frac{\phi}{1-\phi})$$ $$a(\eta)=-\text{log}(1-\phi)$$ 移项有 $$\phi=\frac{e^\eta}{1+e^\eta}=\frac{1}{1+e^{-\eta}}$$ 根据伯努利分布的定义,我们有 $$E(T(y)) = E(y) = 0\times P(y=0) + 1\times P(y=1)$$ $$= \phi = \frac{1}{1+e^{-\eta}}$$ 再利用第 2 条限定有 $$E(y) = \frac{1}{1+e^{-X^T\theta}}$$ 我们发现,这个模型要输出的结果,就是 sigmoid 函数。这也是 logistic regression 中 sigmoid 函数的推导过程。也就是说,使用了 logistic regression,我们就需要假定数据符合属于指数族分布的伯努利分布。

时间: 2024-07-29 12:30:33

广义线性模型的理解的相关文章

从广义线性模型到逻辑回归,逻辑回归的深入理解

总结:由于逻辑回归假定y的条件分布(y|x)是伯努利分布,所以根据广义线性模型和指数分布簇的定义可以得到逻辑回归的假设函数是sigmoid函数. 广义线性模型的三个假设——逻辑回归 1. 假定服从指数分布簇的某个分布 逻辑回归中,,所以假定[即已知参数θ的情况下,给定x,y的条件概率服从参数的伯努利分布],此时有.在将伯努利分布转换成指数簇的表达形式中,得知[见文章后面参考] 2.假定在假设h下预测值hθ(x)满足[即预测结果要和均值相同] 在逻辑回归中, 3. 假定自然参数η与输入x之间是线性

广义线性模型 - Andrew Ng机器学习公开课笔记1.6

转载请注明出处:http://www.cnblogs.com/BYRans/ 前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量:h(x)称为基础度量值(base measure): η称为分布的自然参数(natural para

机器学习—广义线性模型(GLM)

逻辑回归是广义线性模型的一种特殊情况,但是在前面这篇http://blog.csdn.net/zhangzhengyi03539/article/details/46574803 讲逻辑回归的时候没有说明为什么要采用单极型函数,这篇文章将会从浅入深的讲解一下广义线性模型. 一.指数分布族(ExponentialFamily). 如果一个分布函数可以写成如下的形式 p(y,η)=b(y)eηTT(y)?a(η)(1) η:自然参数,标准参数,规范参数 T(y):充分统计量 a(η):对数分函数 其

广义线性模型(logistic和softmax)

再谈广义线性模型之前,先来看一下普通线性模型: 普通线性模型的假设主要有以下几点: 1.响应变量Y和误差项?正态性:响应变量Y和误差项?服从正态分布,且?是一个白噪声过程,因而具有零均值,同方差的特性. 2.预测量xi和未知参数βi的非随机性:预测量xi具有非随机性.可测且不存在测量误差:未知参数βi认为是未知但不具随机性的常数,值得注意的是运用最小二乘法或极大似然法解出的未知参数的估计值β^i则具有正态性. 广义线性模型(generalized linear model)正是在普通线性模型的基

机器学习笔记—再谈广义线性模型

前文从线性回归和 Logistic 回归引出广义线性回归的概念,很多人还是很困惑,不知道为什么突然来个广义线性回归,有什么用?只要知道连续值预测就用线性回归.离散值预测就用 Logistic 回归不就行了?还有一些概念之间的关系也没理清,例如线性回归和高斯分布.Logistic 回归和伯努利分布.连接函数和响应函数. 这种困惑是可以理解的,前文为了引导快速入门,从实战解题的角度推出了答案,但对其背后的概率假设解释不足,虽然线性回归专门开辟一节来介绍高斯分布假设,但很多人误以为这一节的目的只是为了

斯坦福机器学习实现与分析之四(广义线性模型)

指数分布族 首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式: \(\begin{aligned} p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))\end{aligned}\) 一般的很多分布(如高斯分布,泊松分布,二项式分布,伽马分布等)都属于指数分布族.该分布族有很多良好的特性,参见<Generalized Linear Models (2nd ed.)>一书3.3节. 广义线性模型构建假设 广义线性模型主要基于以下假设:

从统计学角度来看深度学习(1):递归广义线性模型

从统计学角度来看深度学习(1):递归广义线性模型 原文链接:http://blog.shakirm.com/2015/01/a-statistical-view-of-deep-learning-i-recursive-glms/ 作者:Shakir Mohamed        翻译:王小宁      审校:冯凌秉  朱雪宁   编辑:王小宁 本文得到了原英文作者Shakir Mohamed的授权同意,由王小宁翻译.冯凌秉和朱雪宁审校.感谢他们的支持和帮助. 深度学习及其应用已经成为实用机器学

广义线性模型(GLM)

一.广义线性模型概念 在讨论广义线性模型之前,先回顾一下基本线性模型,也就是线性回归. 在线性回归模型中的假设中,有两点需要提出: (1)假设因变量服从高斯分布:$Y={{\theta }^{T}}x+\xi $,其中误差项$\xi \sim N(0,{{\sigma }^{2}})$,那么因变量$Y\sim N({{\theta }^{T}}x,{{\sigma }^{2}})$. (2)模型预测的输出为$E[Y]$,根据$Y={{\theta }^{T}}x+\xi $,$E[Y]=E[{{

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在<数学之美>中提到,Google是利用逻辑回归预测搜索广告的点击率.因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么.幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解.与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因