熵、相对熵与互信息

一、熵

熵的定义

其对数log的底为2,若使用底为b的对数,则记为。当对数底为时,熵的单位为奈特。

表示数学期望,如果,则随机变量的期望值为,

关于的分布自指数学期望。而熵为随机变量的期望值,其的概率密度函数,则可写为,

引理

证明

二、联合熵与条件熵:

对于服从联合分布为的一对离散随机变量

联合熵的定义

条件熵的定义

定理链式法则

证明

等价记为

推论

,但

三、相对熵与互信息

两个概率密度函数为之间的相对熵或Kullback-Leibler距离定义为,

定义 考虑两个随机变量,它们的联合概率密度函数为,其边际概率密度函数分别是

互信息为联合分布和乘积分布之间的相对熵,

四、熵和互信息的关系

还可以将互信息写为,

由此可以看出,互信息是在给定知识条件下的不确定度的缩减量。则,

,联系到前面的,可得,

最后得出,

因此,随机变量与自身的互信息为该随机变量的熵。有时,熵称为自信息就是这个原因。

熵和互信息的关系如下,

五、熵、相对熵与互信息的链式法则

一组随机变量的熵等于条件熵之和。

定理 设随机变量服从,则

证明一

证明二,由

可得:

给定时由于的知识而引起关于的不确定度的缩减量,即条件互信息的定义

定理 互信息的链式法则

证明

条件相对熵的定义

定理 相对熵的链式法则

证明

时间: 2024-10-24 17:46:18

熵、相对熵与互信息的相关文章

最大熵模型简记

最近两天简单看了下最大熵模型,特此做简单笔记,后续继续补充.最大熵模型是自然语言处理(NLP, nature language processing)被广泛运用,比如文本分类等.主要从分为三个方面,一:熵的数学定义:二:熵数学形式化定义的来源:三:最大熵模型. 注意:这里的熵都是指信息熵. 一:熵的数学定义: 下面分别给出熵.联合熵.条件熵.相对熵.互信息的定义. 熵:如果一个随机变量X的可能取值为X = {x1, x2,-, xk},其概率分布为P(X = xi) = pi(i= 1,2, .

Atitit.信息论原理概论attilax总结

1. <信息论基础(原书第2版)>((美)科弗(Cover...)[简介_书评_在线阅读] - 当当图书.html1 2. <信息论——本质·多样性·统一>((美)布尔金...)[简介_书评_在线阅读] - 当当图书.html2 3. 附录  信息论的数学基础   附录A 集合论基础   附录B 算法论要义   附录C 逻辑学要义   附录D 代数与范畴论要义   附录E 概率论要义   附录F 数字与数值函数   附录G 拓扑.度量和赋范空间2 4. 网络信息论3 1. <

信息论-基础知识

对于一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度.我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多. 所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来建模信息量h(x).那什么函数模型适合表达呢?  我们观察两个相互独立的事件x,y,我们观察它得到的信息量,要和单独观察他们得到的信息量之和相等.即                           

机器学习(3):信息论

1.信息熵 2.相对熵 3.互信息 4.交叉熵及深度学习的应用

信息论小记

一.首先考虑一个离散的随机变量x:当我们观测到这个随机变量的某一个具体值的时候,我们需要考虑这个值给予了我们多少信息,这个信息的量可以看成是在学习x的值的时候的“惊讶程度”(degree of surprise).如果我们知道事件A一定会发生,那么我们就不会收到关于该事件的信息:如果一件相当不可能的事情发生了,我们将接收到很多信息.. 显然,我们对于信息内容的度量将依赖于概率分布p(x),因此我们要找到一个函数h(x),它是p(x)的单调递增函数,表示信息的内容,概率学给出了这个公式: 负号确保

最大熵模型中的数学推导

最大熵模型中的数学推导 查看原文,点击这里 0 引言 写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔.无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班. 10月26日机器学习班第6次课,身为讲师之一的邹博讲最大熵模型,他从熵的概念,讲到为何要最大熵.最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导.晚上我把他的PPT 在微博上公开分

机器学习的数学基础

一.概述 我们知道,机器学习的特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心:是概率论.线性代数.数值计算.信息论.最优化理论和计算机科学等多个领域的交叉学科.所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识. 二.线性代数 2-1.标量 一个标量就是一个单独的数,一般用小写的的变量名称表示. 2-2.向量 一个向量就是一列数,这些数是有序排列的.用过次序中的索引,我们可以确定每个单独的数.通常会赋予向量粗体的小写名称.当我们需要明确表示向量中的元素时,我们会将元素

信息论基础 原书第2版.pdf

下载地址:网盘下载 编辑推荐 <信息论基础>(原书第2版)适合作为电子工程.统计学以及电信方面的高年级本科生和研究生的信息论基础教程教材,也可供研究人员和专业人士参考. 内容简介 <信息论基础>(原书第2版)是信息论领域中一本简明易懂的教材.主要内容包括:熵.信源.信道容量.率失真.数据压缩与编码理论和复杂度理论等方面的介绍.<信息论基础>(原书第2版)还对网络信息论和假设检验等进行了介绍,并且以赛马模型为出发点,将对证券市场的研究纳入了信息论的框架,从新的视角给投资组

文本数据的机器学习自动分类方法(转)

http://blog.csdn.net/jdbc/article/details/50586042 本文为第一部分,着重介绍文本预处理以及特征抽取的方法. 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类."文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程"(达观数据科技联合创始人,张健).文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,