Machine Learning 学习笔记 (3) —— 回归问题深入:泊松回归与Softmax回归

本系列文章允许转载,转载请保留全文!

【总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html

1. 泊松回归 (Poisson Regression)

在生活中,经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模,例如癌症、火灾等。

假设向量x表示引起这一事件发生的因素,向量θ表示因素的权重,则使用hθ(x)=exp(θTx)表示事件发生次数的期望。θTx位于指数位置,意味着其每增加1个单位,将导至事件发生次数的期望值翻倍。

此时,因变量与自变量近似满足泊松分布,即:y(i)~π(hθ(x(i)))。

下面求参数θ的极大似然估计。似然函数:

对数似然函数:

定义损失函数:

要使似然函数最大,只需使损失函数最小。使用损失函数的极小值代替最小值:

化简,有:

最后,使用梯度下降法迭代求解:

其中,为学习率。

2. Softmax回归  (Softmax Regression)

利用之前介绍的逻辑回归模型,我们已经可以解决二分类问题。下面,我们将二分类问题推广为k分类问题。

在逻辑回归中,因变量y∈{0,1},分别对应两个分类;而在Softmax回归模型中,因变量y∈{1,2,...,k},分别对应k个分类。Softmax回归假定因变量服从参数为Φ1,...,Φk的多项分布,即y(i)~Mult(Φ1,...,Φk)。其中:

参数Φk是冗余的,利用概率之和等于1的条件,可以得到:

同时定义:

容易证明,Φ具有如下性质:

尤其需要注意的是,上述性质对i=k的情况仍然成立,尽管推导过程并不相同。后续证明中将直接使用这些性质。

下面求参数θ的极大似然估计,似然函数:

其中,函数1{expression}定义如下:当expression为真时,函数值为1;否则为0。Φ的性质可以利用1{·}进一步化简。

对数似然函数:

定义损失函数:

要使似然函数最大,只需使损失函数最小。使用损失函数的极小值代替最小值:

可以将上式进一步整理为向量形式:

最后,使用梯度下降法迭代求解:

至此,本系列已经探讨了四个常用的回归模型,其中的泊松回归和Softmax回归初看并不容易理解。关于hθ(x)的来历,以及不同模型中J(θ)相似的原因,将在后续文章中作出说明。

时间: 2025-01-09 08:12:46

Machine Learning 学习笔记 (3) —— 回归问题深入:泊松回归与Softmax回归的相关文章

Machine Learning 学习笔记

Machine Learning 学习笔记在海军陆战队服役超过 10 年后,我于去年 7 月份退役了.随后在 8 月份找到了一份赌场的工作做公关,到今年 2 月中旬的时候又被辞退了.到 5 月中旬的时候我在 DE 协会找到了一份临时的"初级用户体验工程师"工作,而到了 8 月底我则成了正式的"用户体验工程师". 当我丢掉赌场的那份工作时,我就在想公关这行可能真的不适合我.我想做一名程序员.于是我开始节衣缩食学习编程.家人对我的情况非常担心.从 2 月份到 5 月份的

Machine Learning 学习笔记 (4) —— 回归问题总结:广义线性模型

本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 指数分布族简介 之前的文章分别介绍了因变量服从高斯分布.伯努利分布.泊松分布.多项分布时,与之对应的回归模型,本文章将阐释这些模型的共同点,并加以推广. 首先非正式地给出指数分布族的定义: 定义 如果变量y的分布可以被表示为p(y;η)=b(y)exp(ηTT(y)-a(η))的形式(η为分布的参数),则称y服从指数分布族 萌萌哒博主

Coursera Machine Learning 学习笔记(一)

之前就对Machine Learning很感兴趣,假期得闲看了Coursera Machine Learning 的全部课程,整理了笔记以便反复体会. I. Introduction (Week 1) - What is machine learning 对于机器学习的定义,并没有一个被一致认同的答案. Arthur Samuel (1959) 给出对机器学习的定义: 机器学习所研究的是赋予计算机在没有明确编程的情况下仍能学习的能力. Samuel设计了一个西洋棋游戏,他让程序自己跟自己下棋,并

[Python & Machine Learning] 学习笔记之scikit-learn机器学习库

1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最先是由David Cournapeau在2007年发起的一个Google Summer of Code项目,从那时起这个项目就已经拥有很多的贡献者了,而且该项目目前为止也是由一个志愿者团队在维护着. scikit-learn最大的特点就是,为用户提供各种机器学习算法接口,可以让用户简单.高效地进行数

Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归

[总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 梯度下降法 梯度下降法是一种用来寻找函数最小值的算法.算法的思想非常简单:每次沿与当前梯度方向相反的方向走一小步,并不断重复这一过程.举例如下: [例]使用梯度下降法,求的最小值. 第一步:求解迭代格式.根据“每次沿与当前梯度方向相反的方向走一小步”的思想,可知 第二步:选择迭代的初始值.初始值一般可以随意选择,但恰当的初始值有助于提升收敛速度.本例中选择 第三步:根据迭代格式和初始值进行

Coursera Machine Learning 学习笔记(二)

- Supervised Learning 对于监督学习我们先看一个例子,下图中表示的是一个房价预测的例子.图中横坐标表示房屋占地面积,纵坐标表示房屋交易价格.图中的每个叉则表示一个房屋实例. 现在,我们希望能够预测一个房屋占地面积为750平方英尺的房屋的交易价格是多少.简单的方法是根据这些数据点的分布,画出一条合适的直线,然后根据这条直线来预测.当然,在此房价预测例子中,一个二次函数更加适合已有数据的分布.因此,我们可能会更加希望使用这个二次函数的曲线来进行房价预测. 因此,我们称上述这样的学

machine learning学习笔记

看到Max Welling教授主页上有不少学习notes,收藏一下吧,其最近出版了一本书呢还,还没看过. http://www.ics.uci.edu/~welling/classnotes/classnotes.html Statistical Estimation [ps]- bayesian estimation- maximum a posteriori (MAP) estimation- maximum likelihood (ML) estimation- Bias/Variance

Machine Learning学习笔记(1)

1.机器学习可以做什么? 搜索引擎.垃圾邮件过滤.人脸识别等等,不仅用于人工智能领域,生物.医疗.机械等很多领域都有应用. 2.机器学习的定义 A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performance on T,as measured by P,improves with experience

Coursera Machine Learning 学习笔记(四)

 II. Linear Regression with One Variable (Week 1) - Model representation 以之前预测房价的问题为例,假设我们回归问题的训练集(Training Set)如下所示: 我们用如下符号来描述回归问题中的量: - m 代表训练集中实例的数量 - x 代表特征/输入变量 - y 代表目标变量/输出变量 - (x,y) 代表训练集中的实例 -  代表第i个观察实例 - h 代表学习算法的解决方案或函数,也称为假设(hypothesi