广义线性模型(Generalized Linear Models)

在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是把自变量的线性预测函数当作因变量的估计值。很多模型都是基于广义线性模型的,例如,传统的线性回归模型,最大熵模型,Logistic回归,softmax回归。

指数分布族

在了解广义线性模型之前,先了解一下指数分布族(the exponential family)

指数分布族原型如下

如果一个分布可以用上面形式在表示,那么这个分布就属于指数分布族,首先来定义一下上面形式的符号:

η:分布的自然参数(natural parameter)或者称为标准参数(canonical parameter)

T (y):充分统计量,通常用T(y) = y

a(η):对数分割函数(log partition function)

:本质上是一个归一化常数,确保概率和为1。

当给定T时,a、b就定义了一个以η为参数的一个指数分布。我们变化η就得到指数分布族的不同分布。

论证伯努利分布和高斯分布为指数分布族

,伯努利分布均值φ,记为Bernoulli(φ),y ∈ {0, 1},所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 − φ

对比指数分布族的表达式可以得到:

η = log(φ/(1-φ)) 我们将φ用η表示,则:φ=1/(1+e),是不是发现和sigmoid函数一样了。

这就表明,当我们给定T,a,b,伯努利分布可以写成指数分布族的形式,也即伯努利分布式指数分布族。

同理,在高斯分布中,有:

对比指数分布族,我们得到:

因为高斯分布的方差与假设函数无关,因而为了计算简便,我们设方差=1,这样就得到:

所以这也表明,高斯分布也是指数分布族的一种。

构造广义线性模型(Constructing GLMs)

怎么通过指数分布族来构造广义线性模型呢?要构建广义线性模型,我们要基于以下三个假设:

  1. 给定特征属性和参数后,的条件概率服从指数分布族,即
  2. 预测的期望,即计算。 #h(x) = E[y|x]
  3. 之间是线性的,即

构建最小二乘模型

回顾一下,在线性回归中,代价函数y是通过最小二乘法得到的。下面通过广义线性模型来构造最小二乘模型。

线性回归中,假设y|x;θ服从高斯分布N(μ,σ2)N(μ,σ2),根据我们前面的推导,我们知道µ = η,所以根据三个假设有

说明:

第一个等号根据我们的假设2得到,=y,也即

第二个等号根据高斯分布的期望为μ得到

第三个等号根据我们前面推到可得,也即假设1

第四个等号根据假设3得到。

至此,最小二乘模型构建完成,也即为线性回归中使用的线性模型的来源。接下来的工作就是利用梯度下降,牛顿方法求解Θ

构建逻辑回归

逻辑回归可以用来解决二分类问题,二分类问题的目标函数是离散值,通过统计学知识我们知道可以选择伯努利分布来构建逻辑回归的模型

在前面的论证中我们得到η = log(φ/(1-φ)) 我们将φ用η表示,则:φ=1/(1+e)。根据三个假设,我们有

构建完成,这就是逻辑回归中使用的模型。

构建Softmax Regression

现在我们考虑一个多分类问题,也即响应变量y有k个值,即y ∈{1 2, . . . , k},首先我们来证明多项分布也同样属于指数分布族。

多分类模型的输出结果为该样本属于k个类别的概率,我们可以用φ1, . . . , φk来表示这k个样本输出的概率。φ1, . . . , φk满足,但是这样参数就显得有些冗余了,所以我们用φ1, . . . , φk−1来表示,则

定义T(y)∈Rk-1如下:

注意:

在这里T(y)就不等于y了,在这里它是一个k-1维的向量,而不是一个实数。规定(T (y))i表示向量T(y)中第i个元素

另外,引入一个新的符号,如果大括号内为true,则该式等于1,反之为0,例如1{2 = 3} = 0,1{3 =5 − 2} = 1,

这样T (y) 和 y的关系我们可以表示为

关系可以表示为:

所以有:

所以这样,多项式分布我们也可以写成指数分布族的样式,也即,多项分布也是指数分布族。所以我们可以用广义线性模型来拟合了

通过η的表达式可以得到:ηi=log(φik) 这是ηi关于φi的表达式,将它转化为φi关于ηi,为了方便,我们令,所以有

所以可以求得,代入上图红色方框的等式中,求得,这个关于的的函数称为Softmax函数(Softmax Function)

下面我们使用广义线性构造模型

根据假设3,有ηi = θiT x (for i = 1, . . . , k − 1), where θ1, . . . , θk-1 ∈ Rn+1  同样在这里我们定义θk = 0 所以可以得到:ηk = θkT x = 0

所以模型在给定x的条件下y的分布为:

应用在多分类模型上的这个模型称之为softmax regression,它是逻辑回归的一般化。

对于假设函数,我们有假设2可以得到

所以现在求解目标函数的最后一步就是参数的拟合问题。最大似然估计得到

最大似然函数来求解最优的参数θ,跟前面介绍的一样,可以使用梯度上升或者牛顿方法。

时间: 2025-01-02 17:31:01

广义线性模型(Generalized Linear Models)的相关文章

分类和逻辑回归(Classification and logistic regression),广义线性模型(Generalized Linear Models) ,生成学习算法(Generative Learning algorithms)

分类和逻辑回归(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html 广义线性模型(Generalized Linear Models) http://www.cnblogs.com/czdbest/p/5769326.html 生成学习算法(Generative Learning algorithms) http://www.cnblogs.com/czdbest/p/5771

Machine Learning—Generalized Linear Models广义线性模型

印象笔记同步分享:Machine Learning-Generalized Linear Models广义线性模型

Regression:Generalized Linear Models

作者:桂. 时间:2017-05-22  15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言 主要记录python工具包:sci-kit learn的基本用法. 本文主要是线性回归模型,包括: 1)普通最小二乘拟合 2)Ridge回归 3)Lasso回归 4)其他常用Linear Models. 一.普通最小二乘 通常是给定数据X,y,利用参数进行线性拟合,准则为最小误差: 该问题的求解可以借助:梯度下降法/最小二乘法,

Generalized Linear Models 一般线性模型

Ordinary Least Squares  普通最小二乘法        当达到最小值的时候,就达到最佳拟合直线 求关于系数w 最小二次方程的最小值,可以利用求对w偏导数 同上面等价的另外一种形式的表示: 也可以简化成 推导过程: Ridge Regression 岭回归 由于上式在多重共线性, 会变成0,就会产生问题 通过变换成下面的式子,可以消除这个问题 k为岭参数, 当k为0,得到最小二乘解,当岭参数趋向更大时,岭回归系数估计趋向于0 知识点: 多重共线性 回归模型中的变量存在高度相关

数学之路-数据分析进阶-广义线性模型

在统计学上, 广义线性模型 (Generalized linear model) 是一种受到广泛应用的线性回归模式.此模式假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链结函数(link function)建立起可资解释其相关性的函数. 广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在广义线性模式中,假设每个资料的观测值来自某个指数族分布. 该分布的平均数  可由与该点独立的X解释: 其中为的期望值

广义线性模型(logistic和softmax)

再谈广义线性模型之前,先来看一下普通线性模型: 普通线性模型的假设主要有以下几点: 1.响应变量Y和误差项?正态性:响应变量Y和误差项?服从正态分布,且?是一个白噪声过程,因而具有零均值,同方差的特性. 2.预测量xi和未知参数βi的非随机性:预测量xi具有非随机性.可测且不存在测量误差:未知参数βi认为是未知但不具随机性的常数,值得注意的是运用最小二乘法或极大似然法解出的未知参数的估计值β^i则具有正态性. 广义线性模型(generalized linear model)正是在普通线性模型的基

广义线性模型 - Andrew Ng机器学习公开课笔记1.6

转载请注明出处:http://www.cnblogs.com/BYRans/ 前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量:h(x)称为基础度量值(base measure): η称为分布的自然参数(natural para

Andrew机器学习课程的学习总结1:监督学习的一种方法论,广义线性模型(GLM)的方法学

1.   监督学习的一种方法学,广义线性模型(GLM)的方法学 [转载时请注明来源]:http://www.cnblogs.com/aria313 ——根据Andrew Ng 2008年课程的第1~4节,以及相关的讲义notes 1,进行总结 网易公开课地址:http://study.163.com/plan/planMain.htm?id=1200146 2015.8.14 1.1.  总体核心 监督学习Supervised learning: 有样本集合,样本是标准的正确答案:以此为根据学习

斯坦福机器学习实现与分析之四(广义线性模型)

指数分布族 首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式: \(\begin{aligned} p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))\end{aligned}\) 一般的很多分布(如高斯分布,泊松分布,二项式分布,伽马分布等)都属于指数分布族.该分布族有很多良好的特性,参见<Generalized Linear Models (2nd ed.)>一书3.3节. 广义线性模型构建假设 广义线性模型主要基于以下假设: