【cs229-Lecture4】GLMS:选定指数分布族,如何用它来推导出GLM?

在Lecture4中有3部分内容:

  • Newton’s method        牛顿方法
  • Exceponential Family        指数分布族
  • Generalized Linear Models        广义线性模型(GLMS)

牛顿法上一篇随便中已经讲过了,是平行于梯度下降算法的另一种最优化算法。

然后,视频中证明了伯努利分布和高斯分布都属是指数分布族中的特例的证明,实际上就是把这两种分布转化为指数分布族的形式,然后一一去对照,判断是否符合。

接下来,就讲到了当我们选定了一个指数分布族之后,如何用它来推导出一个广义线性模型(GLM),也就是本文想要讲述的内容。

首先,给出三个假设,同时我们以伯努利分布为例(01问题建模)来进行说明:

给定一个指数分布族,之前我们已经证明了伯努利分布是指数分布族的特例,因此,它满足第一个假设。

给定X,目标是求出以X为条件的T(y)的期望E[T(y)|x],即让学习算法输出h(x)=E[T(y)|x],在此处,这个期望值就等于因变量取1的概率,一般就写成P了。这个P涵盖了0-1因变量的信息,同时也能够用来比较直观地理解我们的问题:当自变量发生变化时,我们的目标变量取1的概率是怎样变化的。

假设因变量取1的概率跟自变量是线性关系。

之后会补充例子。

时间: 2024-10-13 07:30:33

【cs229-Lecture4】GLMS:选定指数分布族,如何用它来推导出GLM?的相关文章

从指数分布族去推导出广义线性模型

指数分布族的定义: 若一类概率分布可以写成如下形式,那么它就属于指数分布族: η - 自然参数,通常是一个实数 T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识) 对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布.极限定理得) 记录一下几个指数分布族以及它们的特征: 正态分布(高斯分布)--总体噪音(由中心极限定理得) 伯努利分布--逻辑回归(对01问题建模) 多项式分布--K种结果的事情进行建模 泊松

机器学习-牛顿方法&指数分布族&GLM

本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient descent)].在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为其实梯度下降属于一种优化方法,但梯度下降找到的是局部最优解.如下图: 本节首先讲解的是牛顿方法(NewTon's Method).牛顿方法也是一种优化方法,它考虑的是全局最优.接着还会讲到指数分布族和广义线性模型.下面来详细

指数分布族与广义线性模型

整理一下之前所学过的关于回归问题的思路: 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格: 学习过程:构建模型h(θ): 线性回归:最小二乘法.梯度下降法.线性模型的概率解释: 局部加权回归:带权重的线性回归.权值的钟形函数: 逻辑回归:分类方法.梯度上升法.牛顿法.引出感知机学习算法: 广义线性模型:指数分布族.给定概率分布推导出线性模型. 这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知: 在线性回归模型的概率解释中假设: 在逻辑回归模型的推导中假

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

高斯分布和二项分布属于指数分布族的证明

1.什么是指数分布族 1.1 基本描述 指数型分布是一类重要的分布族,在统计推断中,指数型分布族占有重要的地位,在各领域应用广泛.许多的统计分布都是指数型分布,彼此之间具有一定的共性,在研究其统计性质与分布特征时,利用指数型分布族的特征,可以将这一族分布的特征分别表示出.在广义线性模型的统计推断中,常假设样本服从指数型分布. 1.2 定义 指数分布族可以写成如下的形式: 在这里,η叫做分布的自然参数,a(η)叫做累积量母函数(又称log partition function).exp(-α(η)

Exponential family: 指数分布族

Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的翻译. 1. 几个问题     什么是指数分布族?     既然是"族",那么族内的共同特点是什么?     为何指数分布族被广泛应用?是指数分布族选择了我们,还是我们选择了指数分布族?(这个问题没有回答,需要结合具体实例分析) 2. 参考 Exponential family. (201

牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

个人总结: 1.这一篇文章主要是证明性的东西为主,所以说数学公式相对较多,原文笔记作者省略了一些东西,没有和上文很好衔接,所以初学者不一定看明白,建议结合斯坦福机器学习原文讲义(是英文的,没找到有全文中文翻译版的)看一看,如果刚入门对公式的推导就迷糊,说明你有必要去学一些数学基础. 2.结合上一篇文章中提到的梯度下降方法,本文提出了一种更快的迭代方法,叫牛顿方法.原文中公式(1)都能看懂,一转眼怎么就变公式(2)了呢?不知有没有对此迷糊的朋友,其实原文作者这么写确实存在误会,实际上公式(2)不应

指数分布族

指数族分布是一大类分布,基本形式为: 分布函数框架中的h(x),η(θ),T(x)和A(θ)并不是任意定义的,每一部分都有其特殊的意义. θ是自然参数(natural parameter),通常是一个实数: h(x)是底层观测值(underlying measure): T(x)是充分统计量(sufficient statistic): A(θ)被称为对数规则化(log normalizer). --------------------- T(x)是x的充分统计量(能为相应分布提供足够信息的统计

机器学习—广义线性模型(GLM)

逻辑回归是广义线性模型的一种特殊情况,但是在前面这篇http://blog.csdn.net/zhangzhengyi03539/article/details/46574803 讲逻辑回归的时候没有说明为什么要采用单极型函数,这篇文章将会从浅入深的讲解一下广义线性模型. 一.指数分布族(ExponentialFamily). 如果一个分布函数可以写成如下的形式 p(y,η)=b(y)eηTT(y)?a(η)(1) η:自然参数,标准参数,规范参数 T(y):充分统计量 a(η):对数分函数 其