统计学习方法李航---第6章逻辑回归与最大熵模型

第6章逻辑回归与最大熵模型

逻辑回归(logistic regression)是统计学习中的经典分类方法。最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑回归模型

定义6.1(逻辑分布)：设X是连续随机变量，X服从逻辑斯谛分布是指

X具有下列分布函数和密度函数

式中，u为位置参数，r>0为形状参数。

逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示。分布函数属于逻辑函数，其图形是一条S形曲线(sigmoid curve)。该曲线以点(u, 1/2)为中心对称，即满足

曲线在中心附近增长速度较快，在两端增长速度较慢形状参数Y的值越小，曲线在中心附近增长得越快.

二项逻辑回归模型(binomial logistic regression model)是一种分类模型，用于二类分类。由条件概率分布P(Y|X)表示，形式为参数化的逻辑分布。这里，随机变量X取值为实数，随机变量Y取值为1或0。

定义6.2 (逻辑回归模型)：二项逻辑回归模型是如下的条件概率分布：

w称为权值向量，b称为偏置，w.x为w和x的内积。将权值向量和输入向量加以扩充为 w=(w, b), x =(x,1)，逻辑回归模型如下

一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值，如果事件发生的概率是p，那么该事件的对数几率(log odds)或logit函数是

对逻辑回归而言，

这就是说，在逻辑回归模型中，输出Y=1的对数几率是由输入x的线性函数表示的模型。

模型参数估计

可以应用极大似然估计法估计模型参数，对数似然函数为：

这样，问题就变成了以对数似然函数为目标函数的最优化问题。逻辑回归学习中诵常采用梯度下降法及拟牛顿法。

多项逻辑回归模型(multi-nominal logistic regression model)，用于多类分类，模型如下：

二项逻辑回归的参数估计法也可以推广到多项逻辑回归。

6.2 最大熵模型

最大熵模型(maxunum entropy model)由最大熵原理推导实现。

最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型(分布)中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。均匀分布时，熵最大。

最大熵原理认为要选择的概率模型首先必须满足约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性.“等可能”不容易操作，而熵则是一个可优化的数值指标.

最大熵模型的定义

给定训练数据集，可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布，

其中，v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数，v(X = x)表示训练数据中输入x出现的频数，N表示训练样本容量。

用特征函数（feature function） f(x,y)描述输入x和输出Y之间的某一个事实。其定义是

特征函数f(x,y)关于经验分布P^~(X,Y)的期望值，用E_P^~(f)表示：

特征函数f(x,y)关于模型P(Y|X)与经验分布P^~(X)的期望值，用E_P(f)表示,

约束条件为

定义6.3(最大熵模型)：假设满足所有约束条件的模型集合为

定义在条件概率分布P(Y|X)上的条件熵为

则模型集合C中条件熵H(P)最大的模型称为最大熵模型。

最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程，可以形式化为约束最优化问题：

转化为

将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求原解始问题。

最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计，最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

对数似然函数为：

目标函数为：

最大熵模型的一般形式为：

6.3 模型学习的最优化算法

基于改进的迭代尺度法(improved iterative scaling, IIS)的最大熵模型学习算法

IIS的想法是假设最大嫡模型当前的参数向量是w=(w₁, ..., w_n)^T，

希望找到一个新的参数向量w + sigmal =(w₁+sigmal₁, ..., w_n+sigmal_n)^T，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法：w-->w + sigma，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

基于拟牛顿法（BFGS）的最大熵模型学习算法

来自为知笔记(Wiz)

时间： 2024-10-03 02:32:29

统计学习方法李航---第6章逻辑回归与最大熵模型的相关文章

统计学习方法李航---第12章统计学习方法总结

第12章统计学习方法总结 1 适用问题分类问题是从实例的特征向量到类标记的预测问题:标注问题是从观测序列到标记序列(或状态序列)的预测问题.可以认为分类问题是标注问题的特殊情况. 分类问题中可能的预测结果是二类或多类:而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的. 感知机.k近邻法.朴素贝叶斯法.决策树是简单的分类方法,具有模型直观.方法简单.实现容易等特点: 逻辑斯谛回归与最大熵模型.支持向量机.提升方法是更复杂但更有效的分类方法,往往分类准确率更高: 隐马尔可夫模型.条件

统计学习方法李航---第8章提升方法

第8章提升方法提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效.在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能. 基本思想:对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多.提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器.大多数的提升方法都是改变训练数据的概率分布(训练数据的权值分布),针对

统计学习方法李航---第1章统计学习方法概论

第一章统计学习方法概论统计学习的主要特点是: (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的; (2)统计学习以数据为研究对象,是数据驱动的学科: (3)统计学习的目的是对数据进行预测与分析: (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论. 统计学习的对象是数据Cdata) 统计学习的目的是对数据进行预铡与分析

逻辑回归和最大熵模型

逻辑回归因变量随着自变量变化而变化. 多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn. 二项分布即重复n次独立的伯努利试验.在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布. 逻辑分布二项逻辑回归如何求逻辑回归中的参数W 首先介绍似然

第六章 logistic回归与最大熵模型

1.logistic回归是统计学习中的经典分类方法. 最大熵模型:最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型. 两者都是对数线性模型. 2.二项logstic分类模型:用于二类分布. 多项logstic分类模型:用于多类分布. 3.最大熵模型(maximum entropy model):是由最大熵原理推导实现. 4.熵最大原理:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型. 5.当X服从均匀分布时,熵最大. 6.改进的迭代尺度法(improve

统计学习方法李航---第11章条件随机场

第11章条件随机场条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场.条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问题的应用,这时问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计. 11.1 概率无向图模型概率无向图模型(probabilist

统计学习方法李航---第10章隐马尔可夫模型

第10章隐马尔可夫模型隐马尔可夫模型(hidden Markov model, HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型. 10.1 隐马尔可夫模型的基本概念定义10.1 (隐马尔可夫模型) 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程.隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence):每个状态生成一个观

统计学习方法李航---第5章决策树

第5章决策树决策树(decision tree)是一种基本的分类与回归方法.本章主要讨论用于分类的决策树.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.其主要优点是模型具有可读性,分类速度快.学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型.预测时,对新的数据,利用决策树模型进行分类.决策树学习通常包括3个步骤:特征选择.决策树的生成和决策树的修剪. 5.1 决策树模

统计学习方法李航---第7章支持向量机

第7章支持向量机支持向量机(support vector machines, SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器:支持向量机还包括核技巧,这使它成为实质上的非线性分类器.支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问.支持向量机的学习算法是求解凸二次规划的最优化算法. 支持向量机学习模型:线性可分支持向量机(linear s

猜你喜欢

MySQL 四种事务隔离级的说明[转]

很早之前写的文章,重新回顾和学习下: 按照SQL:1992 事务隔离级别,InnoDB默认是可重复读的(REPEATABLE READ).MySQL/InnoDB 提供SQL标准所描述的所有四个事务隔 ...

Python 单元测试 & 文档测试

1.1 单元测试 1.1.1 单元测试编写单元测试是用来对一个模块.一个函数或者一个类来进行正确性检验的测试工作. 编写一个Dict类,这个类的行为和dict一致,但是通过属性来访问. &g ...

HDU2089 不要62[数位DP]

不要62 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submis ...

UVa401

B - Palindromes Time Limit:3000MS Memory Limit:0KB 64bit IO Format:%lld & %llu Submit St ...

python while语句

while 循环的语法如下:while expression: suite_to_repeat while 循环的 suite_to_repeat 子句会一直循环执行, 直到 expression 值 ...

ios推送：本地通知UILocalNotification

转载自:http://www.2cto.com/kf/201403/285612.html 在去年做过一个小App,其中使用的关键功能就是向用户发送本地通知,可惜当时没有写博客的习惯,所以没有将对 ...

【CodeVS 3290】【NOIP 2013】华容道

http://codevs.cn/problem/3290/ 据说2013年的noip非常难,但Purpleslz学长还是AK了.能A掉这道题真心orz. 设状态$(i,j,k)$表示目标棋子在$(i ...

C# Hashtable vs Dictionary 学习笔记

Hashtable 和 Dictionary 存储的都是键值对,我的理解是Dictionary是Hashtable的泛型实现. Hashtable的键和值都是object类型.所以,key和value ...

Python 函数式编程(2) —— 返回函数

Python的函数不但可以返回int.str.list.dict等数据类型,还可以返回函数!例一. 求和[1, 2, 3, 4]def calc_sum(lst): def calc_sum() ...

linux存储技术与应用:Multipath多路径

1.两台服务器各配置两块网卡存储: eth0:192.168.1.20/24 eth1:192.168.2.20/24 节点: eth0:192.168.1.10/24 eth1:192.168.2 ...

袍治劣盘勇re5i8q642m993e91

首页时政国际国内财经文娱生活图片视频专栏双语爱出国移动新媒体中国搜索中文国际 > 独家香港富商刘銮雄斥4.8亿购两颗巨钻赠爱女曾因行贿被判刑中国日报网信莲2015-11-12 17: ...

Android调用Webservice发送文件

一服务器端C#这里有三个上传方法1.uploadFile( byte []bs, String fileName); PC机操作是没有问题2. uploadImage(String filename, ...

【jquery】javaScript中prototype的妙用巧妙运用prototype属性原型链创建对象

prototype 可以有好多有优化实现方法 http://blog.csdn.net/liuqiwen0512/article/details/8089690 在 JavaScript 中,每个函 ...

UVA - 993 - Product of digits （简单贪心）

993 Product of digits For a given non-negative integer number N, ?nd the minimal natural Q such that ...

从yum提示空间不足到根分区扩容

记录一次安装软件的报错 --[email protected] 1.系统版本(VMware 虚拟机) [[email protected] ~]# cat /etc/redhat-re ...

3.26日第六次作业,第10章质量,11章人力

3.26日第六次作业,第10章质量,11章人力 1.质量管理基本原则以实用为核心的多元要求.系统工程.职工参与管理.管理层和第一把手重视.保护消费者权益.面向国际市场. 2.质量管理的目标顾客 ...

求一串数中的最值(空间换时间)

求最值 2014年9月19日 16:44:28 这只是个例子,可看明白了? 1 foreach (CircleInfo p in point) 2 { 3 //找出出现次数最多的数 4 allnum+ ...

stack堆栈容器

堆栈是一种线性表,插入和删除操作只在表的一端进行,该端成为栈顶,另一端则称为栈底.元素的入栈和出栈都是在栈顶进行的,因此堆栈是一种后进先出表(LIFO).C++ STL的堆栈泛化是通过现有的序列容器来 ...

XML格式导出Excel

下面介绍一种导出Excel的方法: 此方法不需要在服务器上安装Excel,采用生成xml以excel方式输出到客户端,可能需要客户机安装excel,所以也不会有乱七八糟的权限设定,和莫名其妙的版本问题 ...

最受欢迎的5款PHP框架记录，我居然一个不知道。。。

1. CodeIgniter Framework CodeIgniter 是目前使用最广泛的 PHP 框架.CodeIgniter 是一个简单快速的PHP MVC 框架.EllisLab 的工作人员发 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.028 s.