统计学习六:1.对数线性模型之逻辑回归

全文引用自《统计学习方法》(李航)

本节介绍的对数线性模型,主要包括逻辑斯谛回归(logistic regression)模型以及最大熵模型(maximum entropy model)。逻辑斯谛回归模型是统计学中十分经典的分类方法,而最大熵是概率学习中的一个准则,通过推广到分类问题,可以得到最大熵模型。本文主要介绍逻辑斯谛回归模型,并在以后详细介绍最大熵模型以及对数线性模型的优化方法。

1.逻辑斯谛分布

逻辑斯谛分布(logistic distribution)定义: 设X是连续的随机变量,则X服从逻辑斯谛分布是指其满足一下分布函数和密度函数:

\[
\begin{aligned}
F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}\f(x)=F‘(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}
\end{aligned}
\]

式中,\(\mu\)为位置参数,\(\gamma > 0\)为形状参数。

逻辑斯谛回归分布的密度函数和分布函数的形状如下图:

分布函数F(x)即逻辑斯谛函数,其图形是一条s形曲线,以\((\mu, \frac{1}{2})\)点为中心呈中心对称,即满足

\[
F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2}
\]

形状参数\(\gamma\)越小,曲线在对称中心附近增长越快。

2.二项逻辑斯谛回归模型

二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率P(Y|X)表示,其形式为参数化的逻辑斯谛分布。其中,随机变量X为实数,随机变量Y取值0或1。则二项逻辑斯谛回归模型形式如下:

\[
\begin{aligned}
P(Y=1|x)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)}\P(Y=0|x)=\frac{1}{1+\exp(w\cdot x+b)}
\end{aligned}
\]

其中,\(x\in R^n\)为模型输入实例,\(Y\in\{0,1\}\)为模型输出,\(w\in R^n.b\in R\)为参数,w称为权值向量,b称为偏置,\(w\cdot x\)为两者的内积。

对于给定的输入实例x,按照上式进行计算,可以得到P(Y=1|x)和P(Y=0|x),则逻辑回归模型比较两者的大小,将实例分为概率较大的一类。

通常为了计算方便,会将权值向量和输入向量扩展为\(w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T,x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T\),同时,逻辑斯谛回归模型的形式如下:

\[
\begin{aligned}
P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}
\end{aligned}
\]

定义一个事件的几率(odds)为该事件发生的概率和该事件不发生的概率之比,若一个事件发生的概率为p,那么该事件的几率为\(\frac{p}{1-p}\),则该事件的对数几率(log odds)或logit函数是:

\[
logit(p)=\log\frac{p}{1-p}
\]

则对于逻辑斯谛回归模型而言,Y=1的几率为:

\[
\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x
\]

即,在逻辑斯谛回归模型中,输出Y=1的对数几率是输入x的线性函数,或输出Y=1的对数几率是由输入x的线性函数表示的模型此模型即为逻辑斯谛回归模型。

3. 模型的参数估计

对于逻辑斯谛回归模型的学习流程,主要是对于给定的训练数据集\(T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},x_i\in R^n,y_i\in\{0,1\}\),利用极大似然估计法来估计模型的参数,从而得到逻辑斯谛回归模型。

假设:\(P(Y=1|x)=\sigma(x),P(Y=0|x)=1-\sigma(x)\)

则似然函数为:

\[
\prod_{i=1}^N[\sigma(x_i)]^{y_i}[1-\sigma(x_i)]^{1-y_i}
\]

对数似然函数为:

\[
\begin{aligned}
L(w)&=\sum_{i=1}^N[y_i\log\sigma(x_i)+(1-y_i)\log(1-\sigma(x_i))]\&=\sum_{i=1}^N\left[y_i\log\frac{\sigma(x_i)}{1-\sigma(x_i)}+\log(1-\sigma(x_i))\right]\&=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))]
\end{aligned}
\]

此时,对L(w)求最大值,即得到w的估计值。

因此,模型的学习问题就变成了以对数似然函数为目标函数的最优化问题。通常采用梯度下降法或拟牛顿法来求取最优值。

假定w的极大似然估计值为\(\hat{w}\),则学习到的逻辑斯谛回归模型为:

\[
\begin{aligned}
P(Y=1|x)=\frac{\exp(\hat{w}\cdot x)}{1+\exp(\hat{w}\cdot x)}\P(Y=0|x)=\frac{1}{1+\exp(\hat{w}\cdot x)}
\end{aligned}
\]

4.多项逻辑斯谛回归模型

针对多分类问题,可以将二项分类的逻辑斯谛回归模型进行推广,称为多项逻辑斯谛回归模型。

假定离散型随机变量Y的取值集合为\(\{1,2,\cdots,K\}\),那么多项逻辑斯谛回归模型为:

\[
\begin{aligned}
P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)},k=1,2,\cdots,K-1\P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}
\end{aligned}
\]

其中\(x\in R^{n+1},w_k\in R^{n+1}\)。

而二项逻辑斯谛回归模型的参数估计方法,也可以推广到多项逻辑斯谛回归模型中。

原文地址:https://www.cnblogs.com/zhiyuxuan/p/9702978.html

时间: 2024-08-30 13:28:48

统计学习六:1.对数线性模型之逻辑回归的相关文章

统计学习六:2.对数线性模型之最大熵模型

全文引用自<统计学习方法>(李航) 最大熵模型(maximum entropy model)同样是一类对数线性模型,主要由最大熵原理推导得出.本文主要介绍最大熵原理的基本概念.最大熵模型的推导过程以及模型的学习形式. 1.最大熵原理 最大熵原理是概率模型学习的一个准则.具体表现为,在给定多个约束条件之后,对于所有满足约束条件的概率模型所组成的集合,熵最大的模型一定是最好的模型,此时应选择该模型为最终模型. 假定离散随机变量X的概率分布为P(X),则其熵为: \[ H(P)=-\sum_xP(x

从广义线性模型到逻辑回归,逻辑回归的深入理解

总结:由于逻辑回归假定y的条件分布(y|x)是伯努利分布,所以根据广义线性模型和指数分布簇的定义可以得到逻辑回归的假设函数是sigmoid函数. 广义线性模型的三个假设——逻辑回归 1. 假定服从指数分布簇的某个分布 逻辑回归中,,所以假定[即已知参数θ的情况下,给定x,y的条件概率服从参数的伯努利分布],此时有.在将伯努利分布转换成指数簇的表达形式中,得知[见文章后面参考] 2.假定在假设h下预测值hθ(x)满足[即预测结果要和均值相同] 在逻辑回归中, 3. 假定自然参数η与输入x之间是线性

深度学习:逻辑回归

深度学习(Deep Learning)是机器学习(Machine Learning)的一大分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法. 逻辑回归(Logistic Regression,也译作"对数几率回归")是离散选择法模型之一,属于多重变量分析范畴,是社会学.生物统计学.临床.数量心理学.计量经济学.市场营销等统计实证分析的常用方法. 符号约定 逻辑回归一般用于二分类(Binary Classification)问题中,给定一些输入,输出

先验概率、后验概率、似然函数与机器学习中概率模型(如逻辑回归)的关系理解

看了好多书籍和博客,讲先验后验.贝叶斯公式.两大学派.概率模型.或是逻辑回归,讲的一个比一个清楚 ,但是联系起来却理解不能 基本概念如下 先验概率:一个事件发生的概率 \[P(y)\] 后验概率:一个事件在另一个事件发生条件下的条件概率 \[P(y|x)\] 贝叶斯公式:联合概率公式直接能推导出来的,代表什么意义?不放在具体问题中代表不了任何意义 \[P(y|x) = \frac{{P(x|y)P(y)}}{{P(x)}}\] 拿一个实际的例子,如果用阴天预测是否下雨 先验概率:下雨的概率 \[

分类和逻辑回归(Classification and logistic regression),广义线性模型(Generalized Linear Models) ,生成学习算法(Generative Learning algorithms)

分类和逻辑回归(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html 广义线性模型(Generalized Linear Models) http://www.cnblogs.com/czdbest/p/5769326.html 生成学习算法(Generative Learning algorithms) http://www.cnblogs.com/czdbest/p/5771

统计学习笔记之逻辑回归

在分类的问题中,要预测的变量y经常是离散的,如需要预测是正确还是错误,这是一种最基本的二分类.当然,逻辑回归也可以进行多分类,有一种简单的方法是,将其中一类标记为正类,剩余类标记为负类,可以得到正类,再讲另外一个类标记为正类,重复进行既可得到多分类的结果. LR的常规步骤: 1.寻找假设函数 2.构造损失函数 3.使损失函数最小,并求得回归参数 对于二分类,输出标记为,而线性回归模型产生的预测值是实值,于是我们要将转换为0/1值.最理想的是单位阶跃函数,但是单位阶跃函数不连续不可微,于是,利用的

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑

统计学习方法一:基础

对统计学习方法中的基础概念和理论做一个总结.逐步更新. 内容摘自<统计学习方法>第一章,第一章内容基本全是重要内容,因此此篇部落格算是一个加入了自己理解思路的读书笔记. 一.统计学习方法包含哪几种? 监督学习:用于学习的数据集都是输入\输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则.主要用于分类.标注.回归分析. 非监督学习:用于学习的数据集只有输入(未标记的样本),学习的任务是对于数据进行分析,找到输出.主要用于聚类. 半监督学习:是监督学习和非监督学习的结合,它主要考虑如

(八)从零开始学人工智能--统计学习:统计学习基础知识

目录 统计学习基础知识 1. 统计学习种类 1.1 监督学习 1.2 非监督学习 2. 统计学习中的基本概念 2.1 统计学习三要素:模型,策略,算法 2.2 欠拟合和过拟合 2.3 如何避免过拟合 2.4 过拟合产生的原因 2.5 最大似然估计和贝叶斯估计 3. 线性回归 3.1 经典线性回归 3.2 岭回归(ridge regression) 3.3 lasso回归和ElasticNet 4. 线性分类 4.1 感知机 4.2 逻辑回归(logistic regression) 4.3 So