JS散度

JS散度(Jensen-Shannon divergence)

JS散度解决了KL不对称的问题,JS是对称的。

很明显,如果P1,P2完全相同,那么JS =0, 如果完全不相同,那么就是1.


JS散度是利用KL散度来得到的。JS是对称的而且值是有界的[0,1].


P,Q和第三个分布进行KL计算(第三个分布:(P+Q)/2 )

JS散度是有界的:

但是KL和JS散度来度量时候有一个问题:

如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL值是没有意义的,而JS值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。

时间: 2024-10-08 20:50:20

JS散度的相关文章

【GAN与NLP】GAN的原理 —— 与VAE对比及JS散度出发

0. introduction GAN模型最早由Ian Goodfellow et al于2014年提出,之后主要用于signal processing和natural document processing两方面,包含图片.视频.诗歌.一些简单对话的生成等.由于文字在高维空间上不连续的问题(即任取一个word embedding向量不一定能找到其所对应的文字),GAN对于NLP的处理不如图像的处理得心应手,并且从本质上讲,图片处理相较于NLP更为简单(因为任何动物都可以处理图像,但只有人类可以

K-L 散度

K-L散度度量信息损失 只需要稍加修改熵H的计算公式就能得到K-L散度的计算公式.设p为观察得到的概率分布,q为另一分布来近似p,则p.q的K-L散度为: entropy-p-q 显然,根据上面的公式,K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望.如果继续用2为底的对数计算,则K-L散度值表示信息损失的二进制位数.下面公式以期望表达K-L散度: DKL1 一般,K-L散度以下面的书写方式更常见: DKL2 注:log a - log b = log (a/b) OK,现在我们

概率分布之间的距离度量以及python实现

1. 欧氏距离(Euclidean Distance)       欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式.(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12,-,x1n)与 b(x21,x22,-,x2n)间的欧氏距离:(4)也可以用表示成向量运算的形式: python中的实现: 方法一: import numpy as np x=

Generative Adversarial Nets——解析

摘要 本文提出了一个通过对抗过程来预测产生式模型的新框架.在新框架中我们同时训练两个模型:一个用来获得数据分布的生成模型G,和一个用来估计样本来自训练数据而不是G的概率的判别模型D,G的训练过程是最大化D产生错误的概率,让其无法判断一个图像是由生成模型产生的,还是来自训练样本.这个框架相当于一个极小化极大的双方博弈.在任意函数G 和D 的空间中存在唯一的解,其中G恢复训练数据分布,并且D处处都等于12. 在G和D 由多层感知器定义的情况下,整个系统可以用反向传播进行训练.在训练或生成样本期间不需

浅析 Hinton 最近提出的 Capsule 计划

http://blog.csdn.net/omnispace/article/details/78061776 这有可能也是知乎上面分析介绍深度学习最为全面的文章之一.希望做物理的,做数学的,做生物的,做化学的,做计算机,包括做科幻的都能看的很开心. Hinton 以"深度学习之父" 和 "神经网络先驱" 闻名于世,其对深度学习及神经网络的诸多核心算法和结构(包括"深度学习"这个名称本身,反向传播算法,受限玻尔兹曼机,深度置信网络,对比散度算法,

GAN综述

生成式对抗模型GAN (Generativeadversarial networks) 是Goodfellow等[1]在 2014年提出的一种生成式模型,目前已经成为人工智能学界一个热门的研究方向,著名学者Yann Lecun甚至将其称为"过去十年间机器学习领域最让人激动的点子".GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本.在图像和视觉计算.语音和语言处理.信息安全.棋类比赛等领域,G

tflearn kears GAN官方demo代码——本质上GAN是先训练判别模型让你能够识别噪声,然后生成模型基于噪声生成数据,目标是让判别模型出错。GAN的过程就是训练这个生成模型参数!!!

GAN:通过 将 样本 特征 化 以后, 告诉 模型 哪些 样本 是 黑 哪些 是 白, 模型 通过 训练 后, 理解 了 黑白 样本 的 区别, 再输入 测试 样本 时, 模型 就可以 根据 以往 的 经验 判断 是 黑 还是 白. 与 这些 分类 的 算法 不同, GAN 的 基本 原理 是, 有两 个 相生相克 的 模型 Generator 和 Discriminator,Generator 随机 生成 样本, Discriminator 将 真实 样本 标记 为 Real, 将 Gene

W-GAN

令人拍案叫绝的Wasserstein GAN WGAN前作分析了Ian Goodfellow提出的原始GAN两种形式各自的问题,第一种形式等价在最优判别器下等价于最小化生成分布与真实分布之间的JS散度,由于随机生成分布很难与真实分布有不可忽略的重叠以及JS散度的突变特性,使得生成器面临梯度消失的问题:第二种形式在最优判别器下等价于既要最小化生成分布与真实分布直接的KL散度,又要最大化其JS散度,相互矛盾,导致梯度不稳定,而且KL散度的不对称性使得生成器宁可丧失多样性也不愿丧失准确性,导致coll

Generative Adversarial Nets[Wasserstein GAN]

本文来自<Wasserstein GAN>,时间线为2017年1月,本文可以算得上是GAN发展的一个里程碑文献了,其解决了以往GAN训练困难,结果不稳定等问题. 1 引言 本文主要思考的是半监督学习.当我们说到学习一个概率分布,人们传统的意思是学习一个概率密度.这通常是通过定义一个参数化概率密度\((P_{\theta})_{\theta\in R^d}\)家族,然后基于收集的数据进行最大似然:如果当前有真实样本\(\{x^{(i)}\}_{i=1}^m\),那么是问题转换成: \[\unde