指数分布族与广义线性模型

整理一下之前所学过的关于回归问题的思路:

  • 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格;
  • 学习过程:构建模型h(θ);
  • 线性回归:最小二乘法、梯度下降法、线性模型的概率解释;
  • 局部加权回归:带权重的线性回归、权值的钟形函数;
  • 逻辑回归:分类方法、梯度上升法、牛顿法、引出感知机学习算法;
  • 广义线性模型:指数分布族、给定概率分布推导出线性模型。

这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知:

  • 在线性回归模型的概率解释中假设:

  • 在逻辑回归模型的推导中假设:

线性回归最后一部分将会发现以上这些模型都是广义线性模型的一个特例。

一、指数分布族

     首先,要引出指数分布族的概念。它的标准表达式为:

其中,η是分布的自然参数(natural parameter)或典范参数(canonical parameter),T(y)叫做充分统计量(sufficient statistic),通常情况下T(y)=y;a(η)是对数分配函数(log partition function),而a、b与T一般都是给定的,随着η的变化,会得到不同的分布。

下面来分别推导伯努利分布(Bernoulli distribution)与高斯分布(Gaussian distribution)的指数分不族通用表达式。

1. 伯努利分布

      已知伯努利分布Bernoulli(Φ),Φ为分布的均值,随着Φ的变化,可以得到不同的伯努利分布。

对应标准表达式可知:

这表明选择合适的a、b、T,可以将伯努利分布写成指数分布族的标准形式。

2. 高斯分布

已知高斯分布N(μ,1),μ为分布的均值,方差对最终θ和h(θ)的选择没有影响,设置为1。

对应标准表达式可知:

同理,高斯分布也可以写成指数分布族的标准形式。

 3. 其他指数族分布

还有许多其他分布属于指数分布族,如:

  • 多项式分布(multinomial)
  • 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
  • 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
  • β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
  • Wishart分布(Wishart),用于协方差矩阵分布。

二、广义线性模型(GLM)

   1. 三个假设:

  (1)

(2)给定x,最终的目标是要求出T(y)期望E[T(y)|x],因为通常T(y)=y,故h(x)也可以被求出来。

(3)自然参数η与输入特征x呈线性相关,即

实数时, 

向量时, 

2. 最小二乘法:

   设定目标变量(响应变量)y是连续的,且y|x;θ服从高斯分布,由上面的推导可知η=μ,故可知假设函数h(x)为:

3. 逻辑回归:

由于考虑到二元分类问题,目标变量y取的值是0或1,很自然地就联想到可以利用伯努利分布来建立模型,假设y|x;θ服从伯努利分布Bernoulli(Φ),所以可知它的期望为Φ:

同最小二乘法的推理过程,由伯努利分布的指数族的标准表达式可以反推出假设函数h(x)为:

这里还有个有趣的知识点,参数η的方程g(η)给定了分布的均值,它被叫做正则响应函数(canonical response function),而它的倒数叫做正则关联函数(canonical link function),高斯家族的正则响应函数就是判别函数(identify function),伯努利的正则响应函数就是逻辑函数(logistic function)。

时间: 2024-10-03 21:54:18

指数分布族与广义线性模型的相关文章

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

个人总结: 1.这一篇文章主要是证明性的东西为主,所以说数学公式相对较多,原文笔记作者省略了一些东西,没有和上文很好衔接,所以初学者不一定看明白,建议结合斯坦福机器学习原文讲义(是英文的,没找到有全文中文翻译版的)看一看,如果刚入门对公式的推导就迷糊,说明你有必要去学一些数学基础. 2.结合上一篇文章中提到的梯度下降方法,本文提出了一种更快的迭代方法,叫牛顿方法.原文中公式(1)都能看懂,一转眼怎么就变公式(2)了呢?不知有没有对此迷糊的朋友,其实原文作者这么写确实存在误会,实际上公式(2)不应

机器学习-牛顿方法&指数分布族&GLM

本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient descent)].在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为其实梯度下降属于一种优化方法,但梯度下降找到的是局部最优解.如下图: 本节首先讲解的是牛顿方法(NewTon's Method).牛顿方法也是一种优化方法,它考虑的是全局最优.接着还会讲到指数分布族和广义线性模型.下面来详细

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在<数学之美>中提到,Google是利用逻辑回归预测搜索广告的点击率.因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么.幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解.与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因

从指数分布族去推导出广义线性模型

指数分布族的定义: 若一类概率分布可以写成如下形式,那么它就属于指数分布族: η - 自然参数,通常是一个实数 T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识) 对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布.极限定理得) 记录一下几个指数分布族以及它们的特征: 正态分布(高斯分布)--总体噪音(由中心极限定理得) 伯努利分布--逻辑回归(对01问题建模) 多项式分布--K种结果的事情进行建模 泊松

线性混合模型(5)——广义线性模型

我们知道,混合线性模型是一般线性模型的扩展,而广义线性模型在混合线性模型的基础上又做了进一步扩展,使得线性模型的使用范围更加广阔.每一次的扩展,实际上都是模型适用范围的扩展,一般线性模型要求观测值之间相互独立.残差(因变量)服从正态分布.残差(因变量)方差齐性,而混合线性模型取消了观测值之间相互独立和残差(因变量)方差齐性的要求,接下来广义线性模型又取消了对残差(因变量)服从正态分布的要求.残差不一定要服从正态分布,可以服从二项.泊松.负二项.正态.伽马.逆高斯等分布,这些分布被统称为指数分布族

广义线性模型(Generalized Linear Models)

在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是把自变量的线性预测函数当作因变量的估计值.很多模型都是基于广义线性模型的,例如,传统的线性回归模型,最大熵模型,Logistic回归,softmax回归. 指数分布族 在了解广义线性模型之前,先了解一下指数分布族(the exponential family) 指数分布族原型如下 如果一个分布可以用上面形式在表示,那么这个分布就属于指数分布族,首先来定义一下上面形式的符号: η:分布的自然参数(n

高斯分布和二项分布属于指数分布族的证明

1.什么是指数分布族 1.1 基本描述 指数型分布是一类重要的分布族,在统计推断中,指数型分布族占有重要的地位,在各领域应用广泛.许多的统计分布都是指数型分布,彼此之间具有一定的共性,在研究其统计性质与分布特征时,利用指数型分布族的特征,可以将这一族分布的特征分别表示出.在广义线性模型的统计推断中,常假设样本服从指数型分布. 1.2 定义 指数分布族可以写成如下的形式: 在这里,η叫做分布的自然参数,a(η)叫做累积量母函数(又称log partition function).exp(-α(η)

广义线性模型 - Andrew Ng机器学习公开课笔记1.6

转载请注明出处:http://www.cnblogs.com/BYRans/ 前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量:h(x)称为基础度量值(base measure): η称为分布的自然参数(natural para