信息熵、条件熵、联合熵、信息增益、相对熵、交叉熵

信息熵

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。在没有外部环境的作用下，事物总是向着熵增大的方向发展，所以熵越大，可能性也越大。

\[
H(X)=-\sum_{i=1}^np_{(i)}logp_{(i)}
\]

条件熵

X确定时，Y的不确定性度量。

在X发生是前提下，Y发生新带来的熵。

\[
H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(x,y)logp(y|x)
\]

联合熵

（X,Y）在一起时的不确定性度量

\[
H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)
\]

互信息（信息增益）

表示两个变量X与Y是否有关系，以及关系的强弱。

\[
I(X,Y)=∫_X∫_YP(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}
\]

\[
I(X,Y)=H(Y)-H(Y|X)
\]

\[
I(X,Y)=H(Y)+H(X)-H(X,Y)
\]

可以看出，I(X,Y)可以解释为由X引入而使Y的不确定度减小的量，这个减小的量为H(Y|X)。所以，如果X,Y关系越密切，I(X,Y)就越大，X,Y完全不相关，I(X,Y)为0，所以互信息越大，代表这个特征的分类效果越好。

相对熵

p与q不相似的度量

\[
KL(p||q)=-\sum_{x}p(x)log\frac{q(x)}{p(x)}
\]

交叉熵

衡量p与q的相似性，常常用在深度学习中的分类的损失函数（深度学习中回归任务的损失主要是最小二乘法）。p是真实概率，q是预测概率

\[
H(p,q)=-\sum_{x}p(x)logq(x)
\]

\[
KL(p||q)=H(p,q)-H(p)
\]

总结

信息熵是衡量随机变量分布的混乱程度，是随机分布各事件发生的信息量的期望值，随机变量的取值个数越多，状态数也就越多，信息熵就越大，混乱程度就越大。当随机分布为均匀分布时，熵最大；信息熵推广到多维领域，则可得到联合信息熵；条件熵表示的是在 X 给定条件下，Y 的条件概率分布的熵对 X的期望。
相对熵可以用来衡量两个概率分布之间的差异。
交叉熵可以来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

原文地址：https://www.cnblogs.com/huangyc/p/9734719.html

时间： 2024-10-10 21:32:21

信息熵、条件熵、联合熵、信息增益、相对熵、交叉熵的相关文章

【机器学习基础】熵、KL散度、交叉熵

熵(entropy).KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)在机器学习的很多地方会用到.比如在决策树模型使用信息增益来选择一个最佳的划分,使得熵下降最大:深度学习模型最后一层使用 softmax 激活函数后,我们也常使用交叉熵来计算两个分布的"距离".KL散度和交叉熵很像,都可以衡量两个分布之间的差异,相互之间可以转化. 1. 如何量化信息? 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进

交叉熵损失函数

交叉熵损失是分类任务中的常用损失函数,但是是否注意到二分类与多分类情况下的交叉熵形式上的不同呢? 两种形式这两个都是交叉熵损失函数,但是看起来长的却有天壤之别.为什么同是交叉熵损失函数,长的却不一样? 因为这两个交叉熵损失函数对应不同的最后一层的输出:第一个对应的最后一层是softmax,第二个对应的最后一层是sigmoid 先来看下信息论中交叉熵的形式交叉熵是用来描述两个分布的距离的,神经网络训练的目的就是使 g(x) 逼近 p(x). softmax层的交叉熵 (x)是什么呢?就是最后一

机器学习、深度学习中的信息熵、相对熵（KL散度）、交叉熵、条件熵

信息熵信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典著作<A Mathematical Theory of Communication>中提出的.如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习. 信息量用来度量一个信息的多少.和人们主观认识的信息的多少有些不同,这里信息的多少用信息的在一个语境中出现的概率来定义,并且和获取者对它的了解程度相关,概率越大认为它的信息量越小,概率越小认为它的信息量越大.用以下式子定义:

信息量，熵，交叉熵，相对熵与代价函数

本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系.转载请保留原文链接:http://www.cnblogs.com/llhthinker/p/7287029.html 1. 信息量信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性: 如果有?告诉我们?个相当不可能的事件发?了,我们收到的信息要多于我们被告知某个很可能发?的事件发?时收到的信息.如果我们知道某件事情?定会发?,那么我们就不会接收到信息. 也就是说,信息量

如何通俗的解释交叉熵与相对熵

[From] https://www.zhihu.com/question/41252833/answer/108777563 熵的本质是香农信息量()的期望. 现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布.按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:H(p)=.如果使用错误分布q来表示来自真实分布p的平均编码长度,则应该是:H(p,q)=.因为用q来编码的样本来自分布p,所以期望H(p,q)中概率是p(i).H(p,q)我们称之为"交叉熵

熵、相对熵与互信息

一.熵熵的定义: 其对数log的底为2,若使用底为b的对数,则记为.当对数底为时,熵的单位为奈特. 用表示数学期望,如果,则随机变量的期望值为, 当,关于的分布自指数学期望.而熵为随机变量的期望值,其是的概率密度函数,则可写为, 引理: 证明: 二.联合熵与条件熵: 对于服从联合分布为的一对离散随机变量, 联合熵的定义: 若,条件熵的定义: 定理链式法则: 证明: 等价记为: 推论: ,但. 三.相对熵与互信息两个概率密度函数为和之间的相对熵或Kullback-Leibler距离定义为, 定

交叉熵与KL散度

参考:https://blog.csdn.net/b1055077005/article/details/100152102 (文中所有公式均来自该bolg,侵删) 信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,我们需要寻找一个量来衡量信息的有用程度.首先要先明确,这里的信息都指的是正确信息. 一件越不可能的事发生了,对其他人的用处就越大.比如:我的cvpr被拒稿了.这是一个极大概率事件,所以我跟你说的话,你会感觉:这还用你说?也就是说这句话对你没啥用. 但是如果我说

交叉熵

http://www.cnblogs.com/ljy2013/p/6432269.html 作者:Noriko Oshima链接:https://www.zhihu.com/question/41252833/answer/108777563来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 熵的本质是香农信息量()的期望. 现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布.按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为

交叉熵相关链接

TensorFlow四种Cross Entropy算法实现和应用对比两个函数tf.nn.softmax_cross_entropy_with_logits和tf.nn.sparse_softmax_cross_entropy_with_logits 从神经网络视角看均方误差与交叉熵作为损失函数时的共同点交叉熵代价函数交叉熵代价函数(损失函数)及其求导推导简单易懂的softmax交叉熵损失函数求导如何通俗的解释交叉熵与相对熵? https://www.cnblogs.com/virede