最大熵模型 推导

1、似然函数

  概率和似然的区别:概率是已知参数的条件下预测未知事情发生的概率,而似然性是已知事情发生的前提下估计模型的参数。我们通常都是将似然函数取最大值时的参数作为模型的参数。

  那么为何要取似然函数取最大值的参数作为模型的参数?我们基于这样的假设:对于已经发生的事情,在同样条件下再次发生的概率就会很大。假如模型的参数固定,然后用这个参数固定的模型来预测已经发生的事情,这时我们得到的概率不一定很大,并且不同的参数得到概率是不一样的,但是事实上这个事情已经发生了,也就是说发生这个事情的概率为1,此时我们就需要让模型对这个事情的预测概率越大越好。即概率越大其发生的可能性越大,也就越符合已经发生的事情。

  最大似然估计也是统计学中经验风险最小化的例子。计算极大似然估计的方法:首先写出似然函数,对似然函数取对数并整理,然后求导数,最后解似然方程。其中似然函数常用概率密度函数。

2、预分析

  假设分类模型为条件概率分布P(y|x),训练集为T={(x1,y1),(x2,y2),…,(xn,yn)}。则联合分布P(x,y)的经验分布和边缘分布P(x)的经验分布为:

  对于训练集特征i的函数fi(x,y),设:

:表示特征函数f在训练数据T上关于的数学期望。其计算公式为:

:表示特征函数f在模型上关于P(x,y)的数学期望。其计算公式为:

  由于P(x)是未知的,我们使用 来近似表示。于是有:

  最终我们需要计算的条件概率为:P(y|x)。

3、最大熵模型分析

  最大熵模型的依据是最大熵原理,最大熵原理是:在没用更多信息的前提下,使用等概率的方法会使得模型的效果最好。最大熵模型基本围绕下面两点而展开:

  1)保证模型满足已知的所有约束。

  2)在第一点的基础上使得模型的熵最大。

  最大熵模型的分析过程:

  1)从训练集合中抽取若干特征。(抽取特征的方法在此略)

  2)对于抽取出的每个特征i,我们使用特征函数fi(x,y)来表示。当特征i符合某一条件时,我们将特征函数设置一个值1,否则设置0。

  3)找出特征函数的约束条件。为了让模型拟合训练数据,我们需要让:

  4)我们的分类模型为条件概率分布P(y|x),在满足约束条件的前提下使得模型的熵最大,即:max H(P(y|x))。

  在第4步中,条件熵为:

  同样,我们需要将P(x)的值进行近似处理:

  另外,对于任意输入样例,它总是属于某一个输出类别,因而:

  现在,我们将上述问题转变成了一个有条件的最优化问题:

  在支持向量机中,有过对此类问题的专门分析。首先我们需要将上述问题转化成无条件的最优化问题,这时需要用Lagrange定理,但是上述问题并不满足Lagrange定理,于是我们先将最大化问题转化成最小化问题:

  引进Lagrange乘子,得到:

  于是得到最优化的原始问题为:

  为了便于计算,我们将最小最大化问题转化成它的对偶问题:即最大最小化问题。要进行这种转化需要满足为凸函数,以及为仿射函数。于是我们可以将原始问题等价转化成它的对偶问题来进行求解:

  现在我们先考虑对L的最小化问题,想法很简单,先求导:

  令导数为0,即:

  另外:

  所以有:

  即:

(式2.1)

  另外,还有约束条件:

  代入上式得:

  称为规范化因子。

  将上式代入(式2.1)得到对偶问题的极小解为:

(式2.2)

  这就是我们所需要的最大熵模型下的概率估计,实际上,对偶问题的极大化等价于最大熵模型的极大似然估计。至此,我们已经得到了最大熵模型的目标估计,而模型中的最优参数则是对偶问题最大时的参数。

/*******************分割线

  现在我们开始求对偶函数最大时参数的值,首先将看成一个关于的函数,设

  于是有:

  根据(式2.2),所以:

  所以:

  现在我们需要:

  上式并没有一个显式的解析解,因此需要借助于数值的方法。由于 是一个光滑的凸函数,所以可以求解的方法很多。可以使用的方法有:

  1)通用迭代尺度法(GIS: Generalized Iterative Scaling)。

  2)改进的迭代尺度法(IIS: Improved Iterative Scaling)。

  3)梯度下降算法

  4)拟牛顿法(牛顿法)

  其中,前两个方法是专门为最大熵模型而设计的,后两种方法为通用的算法。

  此处对优化方法暂不介绍,下次专门进行讨论!

总结

  此文有较多的公式化简过程,看起来很复杂,实际上是纸老虎。总的来说,最大熵模型是个相对简单的算法,简单来说,它主要就是约束条件+最大化条件熵。其中约束条件主要是提取训练集的特征,得到每个特征的特征函数,然后将特征函数关于经验联合分布的期望近似为特征函数关于模型的联合分布期望,这样对每个特征函数都到一个约束条件,另外,还要附加上,然后在满足约束条件的基础上求最大化条件熵max H(P(y|x))。

参考文献:

[1] 李航,统计学习方法。

[2] peghoty, http://blog.csdn.net/itplus/article/details/26550201

[3] https://www.cnblogs.com/liuwu265/p/4712307.html

原文地址:https://www.cnblogs.com/shona/p/11431666.html

时间: 2024-08-01 15:35:59

最大熵模型 推导的相关文章

最大熵模型简记

最近两天简单看了下最大熵模型,特此做简单笔记,后续继续补充.最大熵模型是自然语言处理(NLP, nature language processing)被广泛运用,比如文本分类等.主要从分为三个方面,一:熵的数学定义:二:熵数学形式化定义的来源:三:最大熵模型. 注意:这里的熵都是指信息熵. 一:熵的数学定义: 下面分别给出熵.联合熵.条件熵.相对熵.互信息的定义. 熵:如果一个随机变量X的可能取值为X = {x1, x2,-, xk},其概率分布为P(X = xi) = pi(i= 1,2, .

最大熵模型中的数学推导

最大熵模型中的数学推导 查看原文,点击这里 0 引言 写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔.无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班. 10月26日机器学习班第6次课,身为讲师之一的邹博讲最大熵模型,他从熵的概念,讲到为何要最大熵.最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导.晚上我把他的PPT 在微博上公开分

最大熵模型

我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理称为最大熵原理(the maximum entropy principle). 让我们看一个拼音转汉字的简单的例子.假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字"王小波"和&quo

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑

最大熵学习笔记(三)最大熵模型

  生活中我们经常听到人们说"不要把鸡蛋放到一个篮子里",这样可以降低风险.深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle).本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导. 相关链接 最大熵学习笔记(零)目录和引言 最大熵学习笔记(一)预备知识 最大熵学习笔记(二)最大熵原理 最大熵学习笔记(三)最大熵模型 最大熵学习笔记(四)模型求解 最大熵学习笔

最大熵模型答疑

最大熵模型与GIS ,IIS算法 关于最大熵模型的严重困惑:为什么没有解析解? 如何理解最大熵模型里面的特征? 最大熵模型中特征函数f(x,y)的期望如何计算? 条件熵推导: IIS(Improved Iterative Scaling)改进的迭代尺度法

第六章 logistic回归与最大熵模型

1.logistic回归是统计学习中的经典分类方法. 最大熵模型:最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型. 两者都是对数线性模型. 2.二项logstic分类模型:用于二类分布. 多项logstic分类模型:用于多类分布. 3.最大熵模型(maximum entropy model):是由最大熵原理推导实现. 4.熵最大原理:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型. 5.当X服从均匀分布时,熵最大. 6.改进的迭代尺度法(improve

信息论、最大熵模型与EM算法

七月在线4月机器学习算法班课程笔记--No.8 1. 统计学习基础回顾 1.1 先验概率与后验概率 先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现. 后验概率:依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来. 贝叶斯定理:假设B1,B2,...,

逻辑斯谛回归与最大熵模型-《统计学习方法》学习笔记

0. 概述: Logistic回归是统计学中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,logistic回归模型与最大熵模型都是对数线性模型. 本文第一部分主要讲什么是logistic(逻辑斯谛)回归模型,以及模型的参数估计,使用的是极大对数似然估计以及梯度下降法,第二部分介绍什么是最大熵模型,首先介绍最大熵原理, 然后根据最大熵原理推出最大熵模型,在求解最大熵模型时候,要引入拉格朗日对偶性(在下一篇文章中)的讲解,将最大熵模型的学习归结为对偶函数的极大化,