逻辑斯谛回归,softmax回归与最大熵模型



逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法

最大熵是概率模型学习的一个准则,被推广到分类问题后可得到最大熵模型(Maximum Entropy Model)

逻辑斯谛回归模型与最大熵模型都属于对数线性模型,而对数线性模型又是广义线性模型的一种。

科普一下:狭义的线性模型是指 自变量的线性预测 就是 因变量的估计值, 而广义的线性模型是指 自变量的线性预测的函数 是 因变量的估计值。

逻辑斯谛回归

逻辑斯蒂分布

logistic distribution,设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数\[F(x)=P(X \le x)=\frac{1}{1+e^{-\frac{x-\mu}{\gamma}}}\],式中\(\mu\)是位置参数,\(\gamma\)是形状参数

二项逻辑斯谛回归模型

二项逻辑斯谛回归模型(binomial logistic regression model)是一种二分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯蒂分布。

变量X取值为实数,变量Y取值为0或1。我们通过监督学习的方法来估计得到模型的参数。

随机变量X输入到二项逻辑斯谛回归模型中得到属于某一类别的概率\(= w\cdot x + b\)为:

\(P(Y=1|X)=\frac{e^{w\cdot x + b}}{1 + e^{f(x)}}\)

\(P(Y=0|X)=\frac{1}{1 + e^{f(x)}}\)

在逻辑回归模型中,输出Y=1的对数几率是输入x的线性函数,换句话说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。

在二项逻辑回归模型中,它的目标函数是

\(J(w)=-\frac{1}{N}\sum_{n=1}^N y^n \log g(f(x^n)) + (1-y^n) \log (1-g(f(x^n)))\)

参考链接:

对数线性模型之一(逻辑回归), 广义线性模型学习总结(转)

原文地址:https://www.cnblogs.com/siberiawind/p/9551546.html

时间: 2024-10-17 18:48:19

逻辑斯谛回归,softmax回归与最大熵模型的相关文章

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑

逻辑回归和最大熵模型

逻辑回归 因变量随着自变量变化而变化. 多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn. 二项分布即重复n次独立的伯努利试验.在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布. 逻辑分布 二项逻辑回归 如何求逻辑回归中的参数W 首先介绍似然

统计学习方法 –> 逻辑死地回归与最大熵模型

前言 本章的两个模型都是对数线性模型. 逻辑斯蒂分布 如果变量X服从逻辑斯蒂分布,那么X的分布一定是y轴对称的.曲线在中心部分增长的较快.两端增长缓慢. 二项逻辑斯蒂回归模型 其本质就是条件概率P(Y|X).也就意味着给定X,求出最大可能的Y来. Y取值只有1和0. 考虑条件概率分布. 逻辑斯蒂回归模型:输出Y=1的对数几率是输出x的线性函数的模型. 参数模型估计 还是求极大似然估计. 逻辑回归的优缺点: 优点:1>实现简单         2>计算量小,速度快,存储资源低 缺点:1>欠

第六章 logistic回归与最大熵模型

1.logistic回归是统计学习中的经典分类方法. 最大熵模型:最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型. 两者都是对数线性模型. 2.二项logstic分类模型:用于二类分布. 多项logstic分类模型:用于多类分布. 3.最大熵模型(maximum entropy model):是由最大熵原理推导实现. 4.熵最大原理:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型. 5.当X服从均匀分布时,熵最大. 6.改进的迭代尺度法(improve

第六章 逻辑斯蒂回归与最大熵模型

书中重要定义及一些理解 先通过介绍逻辑史蒂的分布来引出logist模型 而通过极大似然法来推导模型的参数估计问题 通过对模型参数的似然函数通过求导来得到递归方程 通过公式可以看出logist是对前面的感知机的升级版,感知机的判断方式过于简单.而其梯度下降的时候也将sign的去掉了,否则无法微分. 后通过方程来写出公式,代码如下 import numpy as np from read_data import get_2_kind_data def logistic_Regression(tra_

Softmax回归(Softmax Regression)

转自:http://www.cnblogs.com/BYRans/ 多分类问题 在一个多分类问题中,因变量y有k个取值,即.例如在邮件分类问题中,我们要把邮件分为垃圾邮件.个人邮件.工作邮件3类,目标值y是一个有3个取值的离散值.这是一个多分类问题,二分类模型在这里不太适用. 多分类问题符合多项分布.有许多算法可用于解决多分类问题,像决策树.朴素贝叶斯等.这篇文章主要讲解多分类算法中的Softmax回归(Softmax Regression) 推导思路为:首先证明多项分布属于指数分布族,这样就可

逻辑斯谛回归与最大熵模型-《统计学习方法》学习笔记

0. 概述: Logistic回归是统计学中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,logistic回归模型与最大熵模型都是对数线性模型. 本文第一部分主要讲什么是logistic(逻辑斯谛)回归模型,以及模型的参数估计,使用的是极大对数似然估计以及梯度下降法,第二部分介绍什么是最大熵模型,首先介绍最大熵原理, 然后根据最大熵原理推出最大熵模型,在求解最大熵模型时候,要引入拉格朗日对偶性(在下一篇文章中)的讲解,将最大熵模型的学习归结为对偶函数的极大化,

最大熵模型原理小结

最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型.在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术.而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法.理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解.本文就对最大熵模型的原理做一个小结. 1. 熵和条件熵的回顾 在决策树算法原理(上)一文中,我们已经讲到了熵和条件熵的概念,这里我们对它们做一个简单的回顾. 熵度量了事物

softmax回归(理论部分解释)

前面我们已经说了logistic回归,训练样本是,(且这里的是d维,下面模型公式的x是d+1维,其中多出来的一维是截距横为1,这里的y=±1也可以写成其他的值,这个无所谓不影响模型,只要是两类问题就可以),训练好这个模型中参数θ以后(或者是这个模型,这俩是一个模型),然后给入一个新的,我们就可以根据模型来预测对应label=1或0的概率了. 前面处理的是两类问题,我们想把这个两类问题扩展,即根据训练好的模型,给入一个新的,我们就可以根据模型来预测对应label=1,2,…k等多个值的概率.我们首