最大熵模型(第二次总结)

说明:此篇是作者对“最大熵模型”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总结:

http://blog.csdn.net/xueyingxue001/article/details/50773796

信息量:

某事件x的信息量的式子为:

              h(x)= -log2x     
式1

关于此式的一个欧拉式解释如下:

某事件发生的概率小,则该事件的信息量大。如:一学生本来都是提前到教室,结果就某天迟到了,那迟到这个概率小的事件,其信息量一定很大。

于是上面的话反映到坐标轴就是:

因此信息量h(x)应该是个递减的式子

话说对于两个独立事件x和y有P(xy) =p(x)p(y),然后假定它们的信息量分布是h(x)和h(y),于是这两个事件的信息量h(xy)应该是类似h(x)h(y)这样的式子,但如果可以把两个事件的信息量h(xy)写成h(x)+h(y)的形式就好了,于是取对数,这样把“对数、递减”这几个因素合起来就有了式1。

PS:注意,这是个欧拉式的解释。

熵:

举个例子,假设x只能取0和1这两个值,然后取这两个值的概率分别为:

P(x= 0) = 0.3

p(x= 1) = 0.7

于是这两个取值的信息量就分别是:

H(x=0)= -log20.3

H(x=1)= -log20.7

既然如此,x平均下来的信息量是多大呢?

你看,x=0的信息量有0.3的概率发生,x=1的信息量有0.7的概率发生,于是P(x
=0) H(x=0) + p(x = 1) H(x=1)就是x的一个平均化的信息量。

而熵就是这个平均化的信息量,将其写成公式的话就是:

注:经典熵的定义,底数是2,单位是bit;若底数是e,单位是nat(奈特)。

两点分布的熵:

下面是两点分布熵的图:

从图中可以看出:

概率为1和概率为0的熵为0,举个例子:x=0发生的概率为0,x=1发生的概率为1,这样一来,我说“x=0一定不发生”和“x=1一定发生”那都是废话,完全没信息量。

三点分布的熵

均匀分布的熵

         因为均匀分布的熵最大,所以0≤H(X)≤lnN。

给定方差的最大熵分布

1,建立目标函数

2,使用方差公式化简约束条件

Var(X)= E(X2) - E2(x)

=>E(X2) = E2(X) + Var(X) =μ22

3,更新目标函数

4,因为这就是个带约束的极值问题,所以利用Lagrange乘子法

5,因为p(x)的对数是二次函数,所以p(x)一定是正态分布(原因见我总结的“根据函数形式判断概率分布”)。

联合熵

两个随机变量X,Y的联合分布,可以形成联合熵JointEntropy,用H(X,Y)表示。

条件熵

(X,Y)发生所包含的熵,减去Y单独发生包含的熵,即:在Y发生的前提下,X发生“新”带来的熵,用H(X,Y)–
H(Y) 表示,可以简写成H(X|Y)。

条件熵定义式的推导过程为(结论就是定义式):

到这里就需要说点东西了,如果把熵和联合熵的求和符号和符号去掉的话,那剩余的部分:

熵             
:p(x)logp(x)

联合熵  
:p(x,y)logp(x,y)

怎么到了条件熵后其剩余的部分变成:p(x,y)logp(x|y)了?按照上面的“规律”不该是p(x|y)logp(x|y)吗?

其实是这样,看下图:

推导解释:

①:既然H(X|Y),即H(X,Y) –H(Y)可以写成

那将H(X|Y)换成H(Y|X)后就得出第一个等号了。

②:将求和符号分开

③:条件概率公式

④:p(x)中只有x,和y没关系,所以移动下位置

⑤:稍微做下变换,这个疑惑的话用冷水洗洗脸,

⑥:注意看⑤的p(x)后面的那部分:这不就是x给定的情况下y的熵嘛!于是⑥式得出!

好了,上面的推导解释完了,下面我们分析下结果。

结果,即⑥式的意思是什么?

“对‘x给定的情况下y的熵’相对于x求期望”,这就是条件熵的含义!

所以才会有相对于熵来说有点不同的式子。

相对熵

相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。

注:在相对熵的定义中,如果p和q都是概率密度时,上面这些名字才都是一个东西。

定义:

设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是

PS1,第二个等号的含义是:再将log(p(x)/q(x))看成一个整体的情况下,相对熵相当于对log(p(x)/q(x))在p(x)上求期望。

PS2:对于凸函数,D(p||q)≥0,D(q||p)≥0。

作用:

相对熵可以度量两个随机变量的“距离”

但,除非p和q相等,否则D(p||q)
≠D(q||p),即p到q的“距离”≠q到p的“距离”,打个比方的话就好像:p在上游,q在下游,那p到q就容易,q到p就不容易。

KL散度

首先还是先说明一点:这里的KL散度就是相对熵,只不过在听课时一直在说“KL散度”而不在用“相对熵”这个名字来称呼这个知识,所以就将其列成一个大章节了。

首先,先来几个问答。

Q1:为什么需要KL散度?

A1:有时候我们需要面对这样的情况 --
假定已知随机变量P,求相对简单的随机变量Q,使得Q尽量接近P。这时KL散度就派上用场了。

Q2:使用KL散度时有什么难点呢?

A2:从上面的相对熵知道,K-L距离是非对称的,于是到底应该选KL(Q||P)还是KL(P||Q)就需要考虑了。

Q3:KL(Q||P)
和KL(P||Q) 选择判断上有什么区别?

A3:

1, 
假定使用KL(Q||P),为了让距离最小,则要求在P为0的地方,Q尽量为0。会得到比较“窄”的分布曲线(因为图形曲线的积分面积要为1(还记得吗?p和q都是概率密度),所以既然P为0的地方,Q都尽量为0了,那剩下不为0的地方就会很高,于是很窄);

假定使用KL(P||Q),为了让距离最小,则要求在P不为0的地方,Q也尽量不为0。会得到比较“宽”的分布曲线;

2, 
如下图所示:

蓝色是P的曲线(假设P有两个峰)

中、右图是KL(Q||P),因为是Q真对P,所以Q能够锁定P的一个峰值

左图是KL(P||Q),因为是P针对Q,所以Q倾向于覆盖P,就不容易锁定P的一个峰值。

互信息

         定义:

两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。

         公式:

话说,“熵 -
互信息 = 条件熵”,原因见下面的公式:

因此有些文献也将互信息I(X,Y)
定义为 H(Y) - H(Y|X)

整理下上面的等式

然后根据上图中的式子可以推导出: H(X|Y)
≤ H(X),H(Y|X)
≤ H(Y)

其实这个可以解释:因为H(X)代表X的不确定度,H(X|Y)代表给定Y之后X的不确定度,如果X和Y有点联系,则H(X|Y)<
H(X),如果X和Y没联系,则H(X|Y) = H(X),因此H(X|Y)
≤ H(X);H(Y|X)
≤ H(Y) 同理。

强大的Venn图:帮助记忆

这个图总结了所有的关系。

比如:如果互信息为0,则X和Y互相独立,因而也就有这个式子:

I(X,Y) = 0 意味着

P(X, Y) = P(X)P(Y)
和 P(X|Y) =P(X)

时间: 2024-09-30 05:37:16

最大熵模型(第二次总结)的相关文章

最大熵模型

我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理称为最大熵原理(the maximum entropy principle). 让我们看一个拼音转汉字的简单的例子.假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字"王小波"和&quo

最大熵模型简记

最近两天简单看了下最大熵模型,特此做简单笔记,后续继续补充.最大熵模型是自然语言处理(NLP, nature language processing)被广泛运用,比如文本分类等.主要从分为三个方面,一:熵的数学定义:二:熵数学形式化定义的来源:三:最大熵模型. 注意:这里的熵都是指信息熵. 一:熵的数学定义: 下面分别给出熵.联合熵.条件熵.相对熵.互信息的定义. 熵:如果一个随机变量X的可能取值为X = {x1, x2,-, xk},其概率分布为P(X = xi) = pi(i= 1,2, .

最大熵模型中的数学推导

最大熵模型中的数学推导 查看原文,点击这里 0 引言 写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔.无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班. 10月26日机器学习班第6次课,身为讲师之一的邹博讲最大熵模型,他从熵的概念,讲到为何要最大熵.最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导.晚上我把他的PPT 在微博上公开分

最大熵模型 Maximum Entropy Model

熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory .今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型:若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型.最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主

逻辑斯谛回归与最大熵模型-《统计学习方法》学习笔记

0. 概述: Logistic回归是统计学中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,logistic回归模型与最大熵模型都是对数线性模型. 本文第一部分主要讲什么是logistic(逻辑斯谛)回归模型,以及模型的参数估计,使用的是极大对数似然估计以及梯度下降法,第二部分介绍什么是最大熵模型,首先介绍最大熵原理, 然后根据最大熵原理推出最大熵模型,在求解最大熵模型时候,要引入拉格朗日对偶性(在下一篇文章中)的讲解,将最大熵模型的学习归结为对偶函数的极大化,

3月机器学习在线班第六课笔记--信息熵与最大熵模型

原文:https://www.zybuluo.com/frank-shaw/note/108124 信息熵 信息是个很抽象的概念.人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少.比如一本五十万字的中文书到底有多少信息量.直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题.(百度百科) 香农定义的信息熵的计算公式如下: H(X)=−∑p(xi)log(p(xi))    (i=1,2,…,n) 其中X 表示的是随机变量,随机变量的取值为(x1,x2,…,xn)

机器学习实战——最大熵模型

信息熵 香农与1948年提出的信息论以其中的信息熵这一基本概念为基础,用来表征人们对客观事件的不确定性的度量,与物理学中的熵表征物质的混乱程度有相似之处. 当处理不确定事件时,最常用的方式就是用概率方式描述,一般假定不确定的事件A每种可能的状态都有一个概率与之对应: P(Ai)s.t.∑i=1nP(Ai)=1P(Ai)≥0 而总共可能的状态如果是有限个(n个),那么就是离散的事件,用离散的随机变量表示:如果可能的状态是无穷多个,那么就是连续的事件,用连续的随机变量表示.本文所有说明仅以离散事件说

统计学习方法 &ndash;&gt; 逻辑死地回归与最大熵模型

前言 本章的两个模型都是对数线性模型. 逻辑斯蒂分布 如果变量X服从逻辑斯蒂分布,那么X的分布一定是y轴对称的.曲线在中心部分增长的较快.两端增长缓慢. 二项逻辑斯蒂回归模型 其本质就是条件概率P(Y|X).也就意味着给定X,求出最大可能的Y来. Y取值只有1和0. 考虑条件概率分布. 逻辑斯蒂回归模型:输出Y=1的对数几率是输出x的线性函数的模型. 参数模型估计 还是求极大似然估计. 逻辑回归的优缺点: 优点:1>实现简单         2>计算量小,速度快,存储资源低 缺点:1>欠

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑