关于信息论中熵的定义与含义:

信息熵:

1. 热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。

2. ;两个独立符号所产生的不确定性应等于各自不确定性之和

3. 在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。

对于当个符号,它的概率为p时,用这个公式衡量它的不确定性:

而信源的平均不确定性,称为信息熵,用下面的公式表示:

注意:1. 当式中的对数的底为2时,信息熵的单位为比特。它底数为其它时,它对应的单位也不一样。

2. 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。

以上内容来自:http://baike.baidu.com/link?url=eX6fx7VJkYByHdKxKo_TF7mQL86IdokHni2lUGu46k_iL_AoQY_aOY_AQG3ZWFfmx64a9GengJkyLS8w79SEBrFlUhqYlzXdIKTK1e7wQ1L28ctUBfa4m6IXtZyHxsq0

条件熵:

设X,Y是两个离散型随机变量,随机变量X给定的条件下随机变量Y的条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。  公式推导如下:

注意:

注意:1. 这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,而是期望!    因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

2. 在计算信息增益的时候,经常需要用到条件熵。信息增益(information gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量)。通常表示为:信息熵 - 条件熵;在决策树中就是根据信息增益选择特征的;

以上内容参考:https://mp.weixin.qq.com/s/v7-hhDVJUQKgNECcgab1qg

相对熵 或 K-L散度

设p(x)和q(x)是 X 取值的两个概率分布,则 p 对于 q 的相对熵为:

它其实吧,有点意思的,  卡式可以写成这样子:

KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q 表示数据的理论分布,模型分布,或P的近似分布。

注意:1. KL散度不是对称的,即:

2. 相对熵的值为非负值。   可以从一个很重要的不等式中推论出来,即吉布斯不等式:

以上内容参考:http://blog.csdn.net/acdreamers/article/details/44657745

交叉熵:

它的公式如下:

它的本质含义为:编码方案不一定完美时,平均编码的长度是多少。

通过公式很好理解。。。。  再结合相对熵更容易明白什么含义了。

另外, 我自己补充一点:

在人工神经网络中,我们有时候会作用交叉熵作为代价函数,此时吧,我们实际上是把输出看作为一个贝努力分布的的。论文 Extracting and composing robust features with denoising autoencoders里有说明。

上面三者的区别:

下面是一个总结,我在知乎上看到的,我的理解也是这个意思,这里引用过来:

1)信息熵:编码方案完美时,最短平均编码长度的是多少。
2)交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少。
平均编码长度 = 最短平均编码长度 + 一个增量
3)相对熵:编码方案不一定完美时,平均编码长度相对于最小值的增加值。(即上面那个增量)

作者:张一山
链接:https://www.zhihu.com/question/41252833/answer/140950659
来源:知乎

互信息:

先说点其它的:有两个变量,分别为X与Y, 则X的信息熵为H(X), Y的信息熵为H(Y), 然后呢,

问: x与y的联合分布的信息熵,就可以表示为H(X,Y) 。如果 X与Y独立的话,则有 H(X,Y) = H(X) + H(Y)。如果不独立的话,则有:H(X,Y) = H(X) + H(Y|X) =  H(Y) + H(X|Y)。

现在呢,互信息就可以表示为:

I(X,Y) = H(X) + H(Y) – H(X,Y)

这个公式,对应的含义就是:它可以看成是一个随机变量中包含的关于另一个随机变量的信息量。

另外,我们还可以把互信息写为: I(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)

此时,互信息可以说成一个随机变量由于已知另一个随机变量而减少的不肯定性。

是不是有点意思??很好理解吧。

时间: 2024-08-26 19:47:56

关于信息论中熵的定义与含义:的相关文章

信息论的熵

1.  前言 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度. 在信息论里则叫信息量,即熵是对不确定性的度量.从控制论的角度来看,应叫不确定性.信息论的创始人香农在其著作<通信的数学理论>中提出了建立在概率统计模型上的信息度量.他把信息定义为"用来消除不确定性的东西".在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少. 当我们不知道某事物具体状态,却知道它有几种可能性时,显然,可能性种类愈多,不确定性愈大.不确定性愈大的事物,我们最后确定了

信息论_熵

信息论主要是对信号所含信息的多少进行量化,其基本思想是一个不太可能发生的事情要比一个可能发生的事情提供更多的信息. 度量信息的集中常用指标有信息熵.条件熵.互信息.交叉熵. 信息熵 信息熵(entropy)简称熵,是对随机变量不确定性的度量.定义为: H(x)=∑pi*log2(pi) 用以下代码来实现对0-1分布变量概率与其信息熵的关系: import matplotlib.pyplot as plt # %matplotlib inline 只有Jupyter需要加这一行,其余常用edito

C语言中,定义的含义?声明的含义?它们之间的区别是什么?

在C语言中,对于定义和声明,也许我们非常的熟悉,但不一定真正的了解! 定义的含义:所谓定义,就是创建(编译器)一个对象,为这个对象分配一块内存空间并取名,也就是我们平常所说的变量名或对象名,一旦这个名字和这块内存空间匹配,那么在定义的这个对象或变量的生命周期中,所创建的这个变量名将不能再被改变,并且内存空间的位置也不会改变.在一个区域内(函数内,全局),一个名字只能被定义一次,不能重复定义. 声明的含义:声明有两重含义 第一重含义:告诉编译器,这个名字已经匹配到了一块内存空间上,后面的代码所用到

关于phpcms中模块_tag.class.php中的pc_tag()方法的含义

关于phpcms中模块_tag.class.php中的pc_tag()方法的含义: 在phpcms系统中自己写后台模块,要在前台模板中显示出来需要在\phpcms\modules\自己定义的模块名\classes\目录下写一个"模块名_tag.class.php"文件,此文件中输出前台模块板所使用的自定义的pc标签,标签定义类中的方法如何写我在这里就不赘述了,因为网上很多相关内容的资料,比如:(http://wenku.baidu.com/link?url=sesC6Zsic5BJi6

ArcGIS中的坐标系统定义与投影转换方法

坐标系统是GIS数据重要的数学基础,用于表示地理要素.图像和观测结果的参照系统,坐标系统的定义能够保证地理数据在软件中正确的显示其位置.方向和距离,缺少坐标系统的GIS数据是不完善的,因此在ArcGIS软件中正确的定义坐标系统以及进行投影转换的操作非常重要. 1. ArcGIS中的坐标系统 ArcGIS中预定义了两套坐标系统,地理坐标系(Geographic coordinate system)和投影坐标系(Projectedcoordinate system). 1.1 地理坐标系 地理坐标系

ArcGIS中的坐标系定义与转换 (转载)

原文:ArcGIS中的坐标系定义与转换 (转载) 1.基准面概念:  GIS中的坐标系定义由基准面和地图投影两组参数确定,而基准面的定义则由特定椭球体及其对应的转换参数确定,因此欲正确定义GIS系统坐标系,首先必须弄清地球椭球体(Ellipsoid).大地基准面(Datum)及地图投影(Projection)三者的基本概念及它们之间的关系.   基准面是利用特定椭球体对特定地区地球表面的逼近,因此每个国家或地区均有各自的基准面,我们通常称谓的北京54坐标系.西安80坐标系实际上指的是我国的两个大

Linux Shell中的特殊符号和含义简明总结(包含了绝大部份)

case语句适用于需要进行多重分支的应用情况. case分支语句的格式如下: case $变量名 in 模式1) 命令序列1 ;; 模式2) 命令序列2        ;; *) 默认执行的命令序列     ;; esac Linux Shell中的特殊符号和含义简明总结(包含了绝大部份)_linux shell_脚本之家 在Linux Shell中有很多的特殊符号,这对于我们写Shell脚本时要特别留意:一方面要知道这些特殊符号的用法,这些符号用好了可以达到事半功倍的效果:但另一方面要避免这些

ArcGIS中的坐标系统定义与投影转换(转)

ArcGIS中的坐标系统定义与投影转换 ArcGIS中的坐标系统定义与投影转换 坐标系统是GIS数据重要的数学基础,用于表示地理要素.图像和观测结果的参照系统,坐标系统的定义能够保证地理数据在软件中正确的显示其位置.方向和距离,缺少坐标系统的GIS数据是不完善的,因此在ArcGIS软件中正确的定义坐标系统以及进行投影转换的操作非常重要. 1.     ArcGIS中的坐标系统 ArcGIS中预定义了两套坐标系统,地理坐标系(Geographic coordinate system)和投影坐标系(

ArcGIS中的坐标系统定义与投影转换

坐标系统是GIS数据重要的数学基础,用于表示地理要素.图像和观测结果的参照系统,坐标系统的定义能够保证地理数据在软件中正确的显示其位置.方向和距离,缺少坐标系统的GIS数据是不完善的,因此在ArcGIS软件中正确的定义坐标系统以及进行投影转换的操作非常重要. 1. ArcGIS中的坐标系统 ArcGIS中预定义了两套坐标系统,地理坐标系(Geographic coordinate system)和投影坐标系(Projectedcoordinate system). 1.1 地理坐标系 地理坐标系