信息论_熵

信息论主要是对信号所含信息的多少进行量化,其基本思想是一个不太可能发生的事情要比一个可能发生的事情提供更多的信息。

度量信息的集中常用指标有信息熵、条件熵、互信息、交叉熵。

信息熵

信息熵(entropy)简称熵,是对随机变量不确定性的度量。定义为:

H(x)=∑pi*log2(pi)

用以下代码来实现对0-1分布变量概率与其信息熵的关系:

import matplotlib.pyplot as plt

# %matplotlib inline    只有Jupyter需要加这一行,其余常用editor都无需此行代码

p = np.arange(0, 1.05, 0.05)
HX = []
for i in p:
    if i == 0 or i == 1:
        HX.append(0)
    else:
        HX.append(-i * np.log2(i) - (1 - i) * np.log2(1 - i))
plt.plot(p, HX, label=‘entropy‘)
plt.xlabel(‘P‘)
plt.ylabel(‘H(x)‘)
plt.show()

其中p是一个一维数组,其值范围为[0,1.05),步长为0.05,HX是一个列表,用于记录一维数组每个数据的熵值。

得到结果如下:

可见,当概率为0或1时,H(x)= 0 ;当 p = 0.5 时,随机变量的不确定性最大,即图像中熵值最大。

条件熵

条件熵 H(Y|X) 白哦是在已知随机变量 X 的条件下,随机变量 Y 的不确定性。定义如下:

H(Y|X)=-∑ni=1mj=1p(X=xiY=yi)*x*logp(Y=yi|X=xi)

由定义可知,H(Y|X)≤H(Y)

互信息

互信息又称信息增益,评价一个事件的出现对另一个事件出现所贡献的信息量。计为:

I(X,Y)=H(Y)-H(Y|X)

在决策树的特征选择中,信息增益为主要依据。对于给定训练数据集D,假设数据集由n维特征构成,构建决策树时,一个核心问题就是选择哪个特征来划分数据集,使得划分后的纯度最大。一般而言,信息增益越大,意味着使用某信息 a 来划分所得“纯度提升”越大。因此常用信息增益来固件决策树划分属性。

相对熵

相对熵之两个随机变量的个体差异,个体差异越大,相对熵越大。又被称为KL散度,如p(x)表示 X 的真实分布,q(s) 表示X的训练分布与预测分布,则p与q的相对熵为:

KL(p(x)||q(x))=∑x∈Xp(x)log2(p(x)/q(x))

相对熵的意义在于:

1.相对熵不是传统意义上的距离,没有对称性,即KL(p(x)||q(x))≠KL(q(x)||p(x))

2.当预测分布与实际分布完全相等时,相对熵为0

3.如果两个分布差异越大,则相对熵也越大;反之相对熵越小

4.相对熵满足非负性

交叉熵

交叉嫡可在神经网络(机器学习)中作为代价函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵代价函数可以衡量p与q的相似性。交叉熵作为代价函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差代价函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。交叉熵(cross entropy),其定义为:

H(p(x0, q(x)) = H(X) + KL(p(x)|q(x))

其中:

H(x)=-∑x∈Xp(x)log2(x)

KL(p(x)||q(x))= Sxup(x)(logz p(x)- lgq(x)故H(p(x0, q(x))化简后为:

H(p(x0, q(x))化简后为

H(p(x0, q(x))= ∑x∈Xp(x)(log2p(x)-log2q(x))

原文地址:https://www.cnblogs.com/Rebel3/p/11529907.html

时间: 2024-08-04 23:00:40

信息论_熵的相关文章

信息论的熵

1.  前言 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度. 在信息论里则叫信息量,即熵是对不确定性的度量.从控制论的角度来看,应叫不确定性.信息论的创始人香农在其著作<通信的数学理论>中提出了建立在概率统计模型上的信息度量.他把信息定义为"用来消除不确定性的东西".在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少. 当我们不知道某事物具体状态,却知道它有几种可能性时,显然,可能性种类愈多,不确定性愈大.不确定性愈大的事物,我们最后确定了

关于信息论中熵的定义与含义:

信息熵: 1. 热力学中的热熵是表示分子状态混乱程度的物理量.香农用信息熵的概念来描述信源的不确定度. 2. :两个独立符号所产生的不确定性应等于各自不确定性之和 3. 在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性. 对于当个符号,它的概率为p时,用这个公式衡量它的不确定性: 而信源的平均不确定性,称为信息熵,用下面的公式表示: 注意:1. 当式中的对数的底为2时,信息熵的单位为比特.它底数为其它时,它对应的单位也不一样. 2. 信息熵是信息论

深度学习中交叉熵和KL散度和最大似然估计之间的关系

机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵 提到交叉熵就需要了解下信息论中熵的定义.信息论认为: 确定的事件没有信息,随机事件包含最多的信息. 事件信息的定义为:\(I(x)=-log(P(x))\):而熵就是描述信息量:\(H(x)=E_{x\sim P}[I(x)]\),也就是\(H(x)=E_{x\sim P}[-log(P(x))]=-\Sigma_xP(x)l

[转] 理解交叉熵在损失函数中的意义

转自:https://blog.csdn.net/tsyccnh/article/details/79163834 关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距.以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便.最近开始研究起对抗生成网络(GANs),用到了交叉熵,发现自己对交叉熵的理解有些模糊,不够深入.遂花了几天的时间从头梳理了一下相关知识点,才算透彻的理解了,特地记录下来,以

决策树算法原理

转载于:http://www.cnblogs.com/pinard/p/6050306.html (楼主总结的很好,就拿来主义了,不顾以后还是多像楼主学习) 决策树算法在机器学习中算是很经典的一个算法系列了.它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林.本文就对决策树算法原理做一个总结,上篇对ID3, C4.5的算法思想做了总结,下篇重点对CART算法做一个详细的介绍.选择CART做重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法

十三种基于直方图的图像全局二值化算法原理、实现、代码及效果(转)

十三种基于直方图的图像全局二值化算法原理.实现.代码及效果(转) http://www.cnblogs.com/carekee/articles/3643394.html 图像二值化的目的是最大限度的将图象中感兴趣的部分保留下来,在很多情况下,也是进行图像分析.特征提取与模式识别之前的必要的图像预处理过程.这个看似简单的问题,在过去的四十年里受到国内外学者的广泛关注,产生了数以百计的阈值选取方法,但如同其他图像分割算法一样,没有一个现有方法对各种各样的图像都能得到令人满意的结果. 在这些庞大的分

灰度图像阈值化分割常见方法总结及VC实现

转载地址:http://blog.csdn.net/likezhaobin/article/details/6915755 在图像处理领域,二值图像运算量小,并且能够体现图像的关键特征,因此被广泛使用.将灰度图像变为二值图像的常用方法是选定阈值,然后将待处理图像的每个像素点进行单点处理,即将其灰度值与所设置的门限进行比对,从而得到二值化的黑白图.这样一种方式因为其直观性以及易于实现,已经在图像分割领域处于中心地位.本文主要对最近一段时间作者所学习的阈值化图像分割算法进行总结,全文描述了作者对每种

《OpenCV:灰度图像阈值化分割常见方法总结及VC代码》

支持原创,拿来收藏!转载地址:http://blog.csdn.net/likezhaobin/article/details/6915755?userName=u014395105&userInfo=aWOfy4XjkeuESVqMgVdrnPewKx6gaD2TZ6xUFF%2FXs%2FeZjmZKRHLyhzVPli3izF4JpSQuVNfcdFRe6pvuXl6VvRJ%2FSmjVpClq8XgXbwl56GUA19Luch91NWA57umNAidF94p6X1kqBpQ9l4%

决策树算法(二)

在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法.对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等.对于这些问题, CART算法大部分做了改进.CART算法也就是我们下面的重点了.由于CART算法可以做回归,也可以做分类,我们分别加以介绍,先从CART分类树算法开始,重点比较和C4.5算法的不同点.接着介绍CART回归树算法,重点介绍和CART分类树的不同点.然后我们讨论CA