KL-Divergence简介

  我们可以计算两个数值点之间的距离,也可以计算两个概率分布之间的距离。常见方法有卡方检验(Chi-Square)和KL散度(KL-Divergence)。本文主要介绍KL散度。

  先从信息熵说起,假设一篇文章的标题叫做“黑洞到底吃什么”,包含词语分别是{黑洞,到底,吃什么},我们现在要根据一个词语推测这篇文章的类别。哪个词语给予我们的信息最多?很容易就知道是“黑洞”,因为“黑洞”这个词语在所有的文档中出现的概率太低啦,一旦出现,就表明这篇文章很可能是在讲科普知识。而其他两个词语“到底”和“吃什么”出现的概率很高,给予我们的信息反而越少。

  如何用一个函数 $h(x)$ 表示词语给予的信息量呢?

  • 第一,肯定是与 $p(x)$ 相关,并且是负相关。
  • 第二,假设 $x$ 和 $y$ 是独立的(黑洞和宇宙不相互独立,谈到黑洞必然会说宇宙),即 $p(x,y) = p(x)p(y)$, 那么获得的信息也是叠加的,即 $h(x, y) = h(x) + h(y)$。满足这两个条件的函数肯定是负对数形式:

\[h(x)=-\ln p(x)\]

  对假设一个发送者要将随机变量 X 产生的一长串随机值传送给接收者, 接受者获得的平均信息量就是求它的数学期望: 

\[\begin{array}{*{20}{l}}
{H[x] = - \sum p (x)\ln p(x)}\\
{H[x] = \mathop \smallint \limits^x p(x)\ln p(x)dx}
\end{array}\]

  这就是的概念。

  另外一个重要特点是,熵的大小与字符平均最短编码长度是一样的。设有一个未知的分布 $p(x)$, 而 $q(x)$ 是我们所获得的一个对 $p(x)$ 的近似,按照 $q(x)$ 对该随机变量的各个值进行编码,平均长度比按照真实分布的 $p(x)$ 进行编码要额外长一些,多出来的长度这就是 KL 散度(之所以不说距离,是因为不满足对称性和三角形法则),即:

\[KL(p||q) =H(P,Q)-H(P)=  - \int {p(x)\ln q(x)dx -(-\int{p(x)}\ln p(x)dx)}=-\int{p(x)\ln(\frac{q(x)}{p(x)})dx}\]

其中$H(P,Q)$称为$P$和$Q$的交叉熵,$H(p)$是$P$的熵。KL 散度又叫相对熵(relative entropy)。当两个概率分布完全相同时,即$P(x)=Q(X)$,其相对熵为0。

  了解机器学习的童鞋应该都知道,在 Softmax 回归(或者 Logistic 回归),最后的输出节点上的值表示这个样本分到该类的概率,这就是一个概率分布。对于一个带有标签的样本,我们期望的概率分布是:分到标签类的概率是 1, 其他类概率是 0。但是理想很丰满,现实很骨感,我们不可能得到完美的概率输出,能做的就是尽量减小总样本的 KL 散度之和(目标函数)。这就是 Softmax 回归或者 Logistic 回归中 Cost function 的优化过程啦。(PS:因为概率和为 1,一般的 logistic 二分类的图只画了一个输出节点,隐藏了另外一个)。

      

引自:http://www.cnblogs.com/daniel-D/p/3244718.html

时间: 2024-10-07 09:21:06

KL-Divergence简介的相关文章

【机器学习基础】熵、KL散度、交叉熵

熵(entropy).KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)在机器学习的很多地方会用到.比如在决策树模型使用信息增益来选择一个最佳的划分,使得熵下降最大:深度学习模型最后一层使用 softmax 激活函数后,我们也常使用交叉熵来计算两个分布的"距离".KL散度和交叉熵很像,都可以衡量两个分布之间的差异,相互之间可以转化. 1. 如何量化信息? 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进

(转)GANs and Divergence Minimization

GANs and Divergence Minimization 2018-12-22 09:38:27 This blog is copied from: https://colinraffel.com/blog/gans-and-divergence-minimization.html  This post discusses a perspective on GANs which is not new but I think is often overlooked. I'll use th

KL散度&互信息

KL散度&互信息 KL散度(KL divergence) 假设我们是一组正在广袤无垠的太空中进行研究的科学家.我们发现了一些太空蠕虫,这些太空蠕虫的牙齿数量各不相同.现在我们需要将这些信息发回地球.但从太空向地球发送信息的成本很高,所以我们需要用尽量少的数据表达这些信息.我们有个好方法:我们不发送单个数值,而是绘制一张图表,其中 X 轴表示所观察到的不同牙齿数量(0,1,2-),Y 轴是看到的太空蠕虫具有 x 颗牙齿的概率(即具有 x 颗牙齿的蠕虫数量/蠕虫总数量).这样,我们就将观察结果转换成

LDA variational inference note, LDA 参数求解

1.LDA主题模型 给定先验概率参数αβ,主题混合参数θ,集合主题z,集合词w的联合分布为            (1) 2.variational inference 1>variational distribution variational inference algorithm 介绍的variational 分布:                                (3) 是作为后验概率p(θ, z, w | α, β)的代替.variational分布的参数γ和φ通过求解最

深度学习UFLDL老教程笔记1 稀疏自编码器Ⅱ

稀疏自编码器的学习结构: 稀疏自编码器Ⅰ: 神经网络 反向传导算法 梯度检验与高级优化 稀疏自编码器Ⅱ: 自编码算法与稀疏性 可视化自编码器训练结果 Exercise: Sparse Autoencoder 自编码算法与稀疏性 已经讨论了神经网络在有监督学习中的应用,其中训练样本是有类别标签的(x_i,y_i). 自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值x_i = y_i . 下图是一个自编码神经网络的示例. 一次autoencoder学习,结构三层:输入层

CVPR 2015 papers

CVPR2015 Papers震撼来袭! CVPR 2015的文章可以下载了,如果链接无法下载,可以在Google上通过搜索paper名字下载(友情提示:可以使用filetype:pdf命令). Going Deeper With ConvolutionsChristian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke

Your Prediction Gets As Good As Your Data

Your Prediction Gets As Good As Your Data May 5, 2015 by Kazem In the past, we have seen software engineers and data scientists assume that they can keep increasing their prediction accuracy by improving their machine learning algorithm. Here, we wan

CCJ PRML Study Note - Chapter 1.6 : Information Theory

Chapter 1.6 : Information Theory Chapter 1.6 : Information Theory Christopher M. Bishop, PRML, Chapter 1 Introdcution 1. Information h(x) Given a random variable and we ask how much information is received when we observe a specific value for this va

【转帖】Andrew ng 【Sparse Autoencoder 】@UFLDL Tutorial

Neural Networks From Ufldl Jump to: navigation, search Consider a supervised learning problem where we have access to labeled training examples (x(i),y(i)).  Neural networks give a way of defining a complex, non-linear form of hypotheses hW,b(x), wit

A Statistical View of Deep Learning (II): Auto-encoders and Free Energy

A Statistical View of Deep Learning (II): Auto-encoders and Free Energy With the success of discriminative modelling using deep feedforward neural networks (or using an alternative statistical lens, recursive generalised linear models) in numerous in