熵与互信息

http://blog.csdn.net/pipisorry/article/details/51695283

这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),交叉熵(cross entropy),困惑度(perplexity),互信息(mutual information)。

熵 (信息论)/信息熵

在信息论中,是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里, 消息代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)

来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。由于一些其他的原因(下面会有解释),把信息(熵)定义为概率分布的对数的相反数是有道理的。

事件的概率分布和每个事件的信息量构成了一个随机变量,这个随机变量的均值(即期望)就是这个分布产生的信息量的平均值(即熵)。采用概率分布的对数作为信息的量度的原因是其可加性。例如,投掷一次硬币提供了1 Sh的信息,而掷 m 次就为 m 位。更一般地,你需要用 log2(n) 位来表示一个可以取 n 个值的变量。

在1948年,克劳德·艾尔伍德·香农将热力学的熵,引入到信息论,因此它又被称为香农熵。

信息熵公式的来源

假设一篇文章的标题叫做“黑洞到底吃什么”,包含词语分别是 {黑洞, 到底, 吃什么}, 我们现在要根据一个词语推测这篇文章的类别。哪个词语给予我们的信息最多?很容易就知道是“黑洞”,因为“黑洞”这个词语在所有的文档中出现的概率太低啦,一旦出现,就表明这篇文章很可能是在讲科普知识。而其他两个词语“到底”和“吃什么”出现的概率很高,给予我们的信息反而越少。

如何用一个函数 h(x) 表示词语给予的信息量呢?第一,肯定是与 p(x) 相关,并且是负相关。第二,假设 x 和 y 是独立的(黑洞和宇宙不相互独立,谈到黑洞必然会说宇宙),即 p(x,y) = p(x)p(y), 那么获得的信息也是叠加的,即 h(x, y) = h(x) + h(y)。满足这两个条件的函数肯定是负对数形式:

对假设一个发送者要将随机变量 X 产生的一长串随机值传送给接收者, 接受者获得的平均信息量就是求它的数学期望:

这就是熵的概念。另外一个重要特点是,熵的大小与字符平均最短编码长度是一样的(shannon)。设有一个未知的分布 p(x), 而 q(x) 是我们所获得的一个对 p(x) 的近似,按照 q(x) 对该随机变量的各个值进行编码,平均长度比按照真实分布的 p(x) 进行编码要额外长一些,多出来的长度这就是 KL 散度(之所以不说距离,是因为不满足对称性和三角形法则),即:

熵的计算

如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。

因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为0, 1编码,而且两个结果彼此之间相互独立。若进行n次独立实验,则熵为n,因为可以用长度为n的比特流表示。

但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量X,取三种可能值,概率分别为,那么编码平均比特长度是:。其熵为3/2。

因此实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。

皮皮blog

熵的定义

熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

依据Boltzmann‘s H-theorem,香农把随机变量 X 的熵值 Η(希腊字母Eta)定义如下,其值域为 {x1, ...,xn}:

其中, P 为 X 的概率质量函数(probability mass function),E 为期望函数,而 I(X) 是X 的信息量(又称为自信息)。I(X) 本身是个随机变数。

当取自有限的样本时,熵的公式可以表示为:

Note: 熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。在这里 b 是对数所使用的底,通常是 2, 自然常数 e,或是10。当b = 2,熵的单位是bit;当b = e,熵的单位是nat;而当b = 10,熵的单位是 Hart。

pi = 0时,对于一些i值,对应的被加数0 logb 0的值将会是0,这与极限一致。

联合熵(joint entropy)

联合熵实际上就是描述一对随机变量平均所需要的信息量。

条件熵(conditional entropy)

定义事件 X 与 Y 分别取 xi 和 yj 时的条件熵为

其中 p(xiyj) 为 X = xi 且 Y = yj 时的概率。这个量应当理解为你知道Y 的值前提下随机变量 X 的随机性的量。

相对熵(relative entropy, 或称 Kullback-Leiblerdivergence, KL 距离)

相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。

交叉熵(cross entropy)

如果一个随机变量 X ~ p(x),q(x)为用于近似 p(x)的概率分布,那么,随机变量 X 和模型 q 之间的交叉熵定义为:

交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。

困惑度(perplexity)

在设计语言模型时,我们通常用困惑度来代替交叉熵衡量语言模型的好坏。给定语言L的样本

语言模型设计的任务就是寻找困惑度最小的模型,使其最接近真实的语言。

互信息(mutual information)

如果 (X, Y) ~ p(x, y),X, Y 之间的互信息 I(X; Y)定义为:
I (X; Y) = H(X) – H(X | Y)           (11)

根据H(X) 和 H(X|Y) 的定义:

互信息 I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量,即Y的值透露了多少关于X 的信息量。

Note: 互信息 I (X; Y)可为正、负或0。

互信息、条件熵与联合熵的区别与联系

由于 H(X|X) = 0, 所以, H(X) = H(X) – H(X|X) = I(X; X)

这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。

和热力学熵的联系

物理学家和化学家对一个系统自发地从初始状态向前演进过程中,遵循热力学第二定律而发生的熵的变化更感兴趣。在传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布,而概率分布是信息熵的核心定义。

皮皮blog

熵求解示例

熵计算示例1

熵计算示例2

注意,这里的边缘概率是基于每个音节的,其值是基于每个字符的概率的两倍,因此,每个字符的概率值应该为相应边缘概率的1/2,即:
p: 1/16 t: 3/8 k: 1/16 a: 1/4 i: 1/8 u: 1/8

求联合熵可以有几种方法,以下我们采用连锁规则方法可以得到:

from: http://blog.csdn.net/pipisorry/article/details/51695283

ref: [http://zh.wikipedia.org]

时间: 2024-07-31 07:53:05

熵与互信息的相关文章

熵、相对熵与互信息

一.熵 熵的定义: 其对数log的底为2,若使用底为b的对数,则记为.当对数底为时,熵的单位为奈特. 用表示数学期望,如果,则随机变量的期望值为, 当,关于的分布自指数学期望.而熵为随机变量的期望值,其是的概率密度函数,则可写为, 引理: 证明: 二.联合熵与条件熵: 对于服从联合分布为的一对离散随机变量, 联合熵的定义: 若,条件熵的定义: 定理链式法则: 证明: 等价记为: 推论: ,但. 三.相对熵与互信息 两个概率密度函数为和之间的相对熵或Kullback-Leibler距离定义为, 定

决策树 随机森林 adaboost

? 熵.互信息? 决策树学习算法 ? 信息增益 ? ID3.C4.5.CART? Bagging与随机森林? 提升 ? Adaboost/GDBT ? 熵.互信息 熵是对平均不确定性的度量. 平均互信息:得知特征Y的信息而使得对标签X的信息的不确定性减少的程度.描述随机变量之间的相似程度.(条件熵.相对熵:差异性) ? 决策树 决策树学习采用的是自顶向下的递归方法,有监督学习. 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类. 建立

文本数据的机器学习自动分类方法(转)

http://blog.csdn.net/jdbc/article/details/50586042 本文为第一部分,着重介绍文本预处理以及特征抽取的方法. 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类."文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程"(达观数据科技联合创始人,张健).文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,

网络挖掘技术——微博文本特征提取

文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性.文本处理中最常用的相似性度量方式是余弦距离.文本挖掘系统采用向量空间模型,用特征词条(T1 ,T2 ,-Tn) 及其权值Wi 代表目标信息,在进行

香农的信息论

之前只知道香农于1948年发表的那篇举世瞩目的paper,<A Mathematical Theory of Communication>,过了一年拉上Warren Weaver作为共同作者出了个单行本,标题只改了一个字,<The Mathematical Theory of Communication>,而Weaver的贡献只是写了份摘要.随手搜了下,原论文索引竟然高达八万多次...... 下载地址. 现在经过了解才知道,香农.巴丁(可能还有肖克利)之于电子工程,就是牛顿.麦克斯

注释:这50个词,在这10月30号之前完成

1.多项式分布 2.文本的多项式分布建模 3.共轭先验 4.概率平滑{Lapace平滑.加1平滑.Dirichlet贝叶斯平滑.2阶段语言模型} 5.似然函数 6.log似然函数 7.期望最大化算法 8.条件概率 9.贝叶斯全公式 10.生成模型 11.判别模型 12.条件期望 13.拉格朗日系数 14.VSM,LSI,PLSI,LDA... 15.CRF.HMM.SVM.NN.DT.MEM... 16.协同过滤 17.expert finding 18.信息抽取 19.贝叶斯决策论 20.KL

A Visual Comfort Assessment Metric for Stereoscopic Images(ICIP2015)

针对立体图像的一种视觉舒适度评价准则 调节accommodation相当于单目focus过程,建模为左右视图的联合熵.聚焦vergence相当于双目fusion过程,建模为左右视图的互信息.联合熵和互信息通过从左右视图中提取的视觉基元计算,调节-聚焦冲突表示为互信息与联合熵之比. 正如动眼神经线索,调节是一个单目线索,指的是晶状体形状和厚度的变化(焦距),这使得眼睛focus在特定距离的物体.而聚焦是一个双目线索,指的是眼球的肌肉旋转,这被用来在同一个物体上汇聚两只眼睛.因此调节相当于focus

3月机器学习在线班第六课笔记--信息熵与最大熵模型

原文:https://www.zybuluo.com/frank-shaw/note/108124 信息熵 信息是个很抽象的概念.人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少.比如一本五十万字的中文书到底有多少信息量.直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题.(百度百科) 香农定义的信息熵的计算公式如下: H(X)=−∑p(xi)log(p(xi))    (i=1,2,…,n) 其中X 表示的是随机变量,随机变量的取值为(x1,x2,…,xn)

文本特征提取方法研究

文本特征提取方法研究 一.课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘.机器学习.模式识别.人工智能.统计学.计算机语言学.计算机网络技术.信息学等多个领域.文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同.文本挖掘的对象是海量.异构.分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义.传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的.所以,文本挖掘面临的首要问题是如何在计