3. Generlized Linear Models

Generlized Linear Models 广义线性模型


Linear
Regression和Logistic Regression都是广义线性模型的特例

The exponential family自然指数分布族

当概率密度函数可以写成下面的形式,我们称属于自然指数分布族:

η 特性[自然]参数
natural parameter

T (y) 充分统计量
sufficient statistic 一般情况下 T (y) = y

a(η) 积累量母函数log
partition function

e?a(η)
用来归一化

Bernoulli
–> exponential family

反解,logistic函数是这么来的:

φ =1/(1 +
e)

Gaussian
-> exponential family(假设σ2= 1)

众多概率统计学过的分布都属于自然指数分布族

构造GLM的步骤


  1. 假设:

  2. 目标:给定x,预测T (y)。即 h(x) = E[y|x]

  3. η = θTx

第三步可以考虑为设计策略,η是输入变量的线性组合

  1. 使用极大似然估计法估计参数

扯点远的

Bayesian
vs Frequentist

频率学派认为θ未知的,确定的变量(上帝知道)

估计θ的方法是,θ的值应该使得观察到的样本最大可能的出现(经验风险最小化)

贝叶斯学派观点见生成学习算法

下面举几个栗子

Linear Regression




  1. η = θTx

根据μ = η有:

  1. 极大似然估计

选择最小化

一气呵成

Logistic
Regression

  1. y|x; θ ~ Bernoulli(φ)


  2. η = θTx

根据φ =1/(1 + e)有:

  1. 极大似然估计

选择最大化?(θ)

又一气呵成

构造GLM的难点

可以看出构造GLM难点在于第一步,对y|x; θ的分布建模。

如何确定y|x;
θ的分布。。。。不知道。。。。

只能假定你已经y|x;
θ的分布是某个指数族分布

最后一个栗子

Softmax Regression

k分类问题

y ∈{1 2, . . . ,
k}

一个比较合理的假设是对y|x;
θ服从多项分布(multinomial distribution)

K个输出的概率记为φ1, . . . , φk,其中

定义如下

指示函数(indicator
function) 1{·}

1{True} = 1,
1{False} = 0 比如 1{2 = 3} = 0

  1. y|x; θ ~ 多项式分布


得到:

反解得:

定义:

叠加得:

上式称为softmax 函数

  1. 极大似然估计

选择最大化?(θ)

这种处理多分类问题称为softmax regression

参考资料


  • [1]
    CS229

时间: 2024-08-11 01:18:40

3. Generlized Linear Models的相关文章

ON THE EVOLUTION OF MACHINE LEARNING: FROM LINEAR MODELS TO NEURAL NETWORKS

ON THE EVOLUTION OF MACHINE LEARNING: FROM LINEAR MODELS TO NEURAL NETWORKS We recently interviewed Reza Zadeh (@Reza_Zadeh). Reza is a Consulting Professor in the Institute for Computational and Mathematical Engineering at Stanford University and a

Regression:Generalized Linear Models

作者:桂. 时间:2017-05-22  15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言 主要记录python工具包:sci-kit learn的基本用法. 本文主要是线性回归模型,包括: 1)普通最小二乘拟合 2)Ridge回归 3)Lasso回归 4)其他常用Linear Models. 一.普通最小二乘 通常是给定数据X,y,利用参数进行线性拟合,准则为最小误差: 该问题的求解可以借助:梯度下降法/最小二乘法,

Machine Learning—Generalized Linear Models广义线性模型

印象笔记同步分享:Machine Learning-Generalized Linear Models广义线性模型

分类和逻辑回归(Classification and logistic regression),广义线性模型(Generalized Linear Models) ,生成学习算法(Generative Learning algorithms)

分类和逻辑回归(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html 广义线性模型(Generalized Linear Models) http://www.cnblogs.com/czdbest/p/5769326.html 生成学习算法(Generative Learning algorithms) http://www.cnblogs.com/czdbest/p/5771

PRML-Chapter3 Linear Models for Regression

Example: Polynomial Curve Fitting The goal of regression is to predict the value of one or more continuous target variables t given the value of a D-dimensional vector x of input variables. 什么是线性回归?线性回归的目标就是要根据特征空间是D维的输入x,预测一个或多个连续的目标值变量,大多数情况下我们研究的目

【Linear Models for Binary Classification】林轩田机器学习基石

首先回顾了几个Linear Model的共性:都是算出来一个score,然后做某种变化处理. 既然Linear Model有各种好处(训练时间,公式简单),那如何把Linear Regression给应用到Classification的问题上呢?到底能不能迁移呢? 总结了如下的集中Linear Model的error functions的表达式: 这里都提炼出来了ys这一项,y表示需要更正的方向{+1,-1},s表示需要更正的幅度(score) 三种error function可以这么理解: (

Coursera台大机器学习课程笔记10 -- Linear Models for Classification

这一节讲线性模型,先将几种线性模型进行了对比,通过转换误差函数来将linear regression 和logistic regression 用于分类. 比较重要的是这种图,它解释了为何可以用Linear Regression或Logistic Regression来替代Linear Classification 然后介绍了随机梯度下降法,主要是对梯度下降法的一个改进,大大提高了效率. 最后讲了多类别分类,主要有两种策略:OVA和OVO OVA思想很简单,但如果类别很多并且每个类别的数目都差不

《机器学习基石》---Linear Models for Classification

1 用回归来做分类 到目前为止,我们学习了线性分类,线性回归,逻辑回归这三种模型.以下是它们的pointwise损失函数对比(为了更容易对比,都把它们写作s和y的函数,s是wTx,表示线性打分的分数): 把这几个损失函数画在一张图上: 如果把逻辑回归的损失函数ce做一个适当的放缩,则可以得到下图: 可以看出,平方误差和放缩后的交叉熵误差是0/1误差的上限,这里以放缩后的ce举例,由于对于每个点的error均成立不等式,则不论是对于Ein还是Eout仍然有不等式成立,因为它们是数据集上每个点err

广义线性模型(Generalized Linear Models)

在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是把自变量的线性预测函数当作因变量的估计值.很多模型都是基于广义线性模型的,例如,传统的线性回归模型,最大熵模型,Logistic回归,softmax回归. 指数分布族 在了解广义线性模型之前,先了解一下指数分布族(the exponential family) 指数分布族原型如下 如果一个分布可以用上面形式在表示,那么这个分布就属于指数分布族,首先来定义一下上面形式的符号: η:分布的自然参数(n