【信息论】如何彻底理解信息和熵?

目录

  • 信息和熵

    • 定义熵和信息
    • 消除熵?
    • 假信息?
    • 概率 VS 熵?
    • 信息的度量和熵的计算

信息和熵

? 飞翔的猪o

说明:本文是作者在看了weixin公众号【超智能体】录制的学习视频后的总结,有需要请移步公众号【超智能体】,利益无关,良心推荐。大多数教材都将信息和熵混为一谈,统称为信息熵,这其实是不恰当的,因而有了这篇文章的诞生。

定义熵和信息

定义熵之前,首先说明什么是宏观态和微观态。

具体的一件事情为宏观态,而这件事情有多种可能情况发生,每种可能情况叫微观态

比如:抛掷硬币这件事,称作宏观态,而正面朝上和反面朝上作为两种可能的情况,都是微观态。

熵:当一件事情有多种可能情况时,这件事情对某人而言究竟是那种情况发生的不确定性叫做

信息:信息是能够消除某人对某件事情的不确定的事物。信息和能量、质量一样,是实实在在存在的事物,是可量化的。

因此可以说,获取信息就是消除熵,熵和信息数量相等,但意义相反。因此,度量信息的时候,实际上我们真正求的是的量,即某件事情(宏观态)的不确定性的大小。

至于熵(信息)怎么度量,后面讲。

消除熵?

信息是来消除熵(不确定性)的。为了好理解,现在熵后面我都加(不确定性)。获得多少信息,就消除了多少熵(不确定性),这些消除不确定性的信息分为三种类型:

  • 1.调整某一微观态的概率
  • 2.排除某一可能的微观态的干扰
  • 3.直接确定实际情况(百分之百确定是该微观态发生),即直接确定某一微观态

上面三条的确不好理解,下面举例解释。

小明正在做一选择题,有ABCD四个选项,正确答案是C。小明完全不会这道题,那么小明对于四个选项(微观态)的不确定性最大,即熵最大。小明选择任一选项的概率都是25%。为消除不确定性,小明需要知道一些信息:

  • 如小红告诉小明,C选项正确的可能是50%,那么小明就有更大的可能会考虑C选项,不确定性也就减少了,在这个过程中,小红告诉了小明信息,小明得到了这些信息,并消除了对等数量的不确定性。这对应着上面的第一种类型。
  • 若小红告诉小明,A选项绝对不对,那么小明只要再剩余的BCD选项中考虑,此时小明选出正确答案的概率是1/3,大于25%,不确定性也减少了。小明排除了A这一微观态的干扰,减少了不确定性。
  • 若小红直接告诉小明,C是正确答案。那么小明可以迅速知道,A选项正确的概率是100%,完全没有了不确定性,这是因为小红告诉了小明所需的全部信息(就本事件而言),这对应于上面的第三种类型。

所以现在应该理解了:获取信息=消除熵(不确定性)。

假信息?

如果小红告诉小明答案是A,这显然是错的,那这是不是“假信息”呢?

在上面的定义下,其实并没有“假信息”这种说法。小红告诉小明答案是A,根本就不是信息,或者说:信息量是0,因为小明听到得到这句话后,并没有减少不确定性,小明依旧完全没有获得能够帮助他得到该事件究竟哪种情况发生的任何信息。

“小红告诉小明答案是A”,如果这不是信息,那这是什么呢?

数据,或者说是噪音。所谓噪音,是指干扰某人获得信息的事物,而数据信息噪音的混合体,需要用知识将其分离。

概率 VS 熵?

那么概率和熵又有什么区别呢?

概率是某件事情(宏观态)的某个可能情况(微观态)发生的确定性。

是某人对某件事情到底哪种情况发生的不确定性。

两者是有本质不同的。下面举例说明。

如我们说,抛硬币正面朝上的概率是50%,是说,抛一枚硬币,正面朝上这个可能情况(微观态)发生的确定性是50%,或者通俗的说:我们有50%的把握认为正面朝上。

指的是,我们对“抛硬币”这一事件(宏观态),究竟是正面朝上还是反面朝上的不确定性是多少。消除这个不确定性,需要信息,那么,信息如何度量?

信息的度量和熵的计算

在说明度量信息之前,必须明确信息的几个性质。

  • 媒介无关
  • 相对个体
  • 相对事件

第一点很容易理解,小红可以用语言告诉小明正确答案是C(媒介是声波),也可以写在纸上(媒介是纸),两种情况下小明都能够准确的接收到该信息,与媒介无关。

第二点指的是,信息的数量是相对个体而言的。小刚本来就知道正确答案是C,那么他对这道题就没有不确定性,当他听到小红的话“正确答案是C”,对小刚来说信息量是0。而对于小明,信息量却不是0。

第三点指的是,对不同事件,信息的数量是不同的。这点也很容易理解,假如这道题只有AB两个选项,小明就会有50%的可能性选中,那么小明对这道题的不确定性就相对小一些。

但必须明确,信息虽然是相对的,信息却是自然界实实在在存在的,不随人的主观意识而改变,即使对小刚来说信息量为0,信息也是实际存在的,这和能感受到的质量等物理量是有很大区别的。

因而,可以这样定义信息:信息描述的是一个观察者确定一个宏观态是哪种微观态时所需的物理量。下面正式说明信息的度量。

前面提到,信息和质量一样,是自然界实实在在存在的物理量,那么我们想想质量是怎么度量的?(即kg是怎么定义的)。

我们现在说1kg,最初也没有kg的概念,而是选择了一个参照物体,定义它的质量为1kg,之后说其他物体的质量,就是多少个参照物体,比如说某个物体8kg,就是说该物体的质量相当于8个参照物体,说某个物体m kg,就是说该物体相当于m个参照物体,这个m实际上是这么算的:

拿一天平,左边放m个参照物体,右边放被测物体,左边为\(m*1kg\),为乘法,此时天平恰好平衡。所以已知被测物体的质量,要知道他相当于多少个参照物体(即度量),只要采取乘法的逆运算-除法,被测物体质量除以参照物体的质量(1kg),就是该物体的质量的一个度量。

而信息的度量也是类似的。

我们知道,信息是用来某事情消除不确定性的,即和熵的数量相等。那么,信息即为某件事物的不确定性的大小。我们是否也可以找一件参照事件,定义某事件的不确定性为“多少个”该参照事件不确定性?

答案是肯定的。我们选取参照事件为抛掷硬币,那么毫无疑问有两种微观态,等概率为50%,我们定义该参考事件的不确定性(即信息量)为1bit,其他事件的不确定性的度量都相对于该参考事件。

但是这可和质量不一样,不是简单地倍数关系。且看:

抛掷1个硬币有2种微观态,信息量为1bit。

抛掷2个硬币有4种微观态,信息量为2bit。

抛掷3个硬币有8种微观态,信息量为3bit。

抛掷4个硬币有16种微观态,信息量为4bit。

可见,若某个事件有16种微观态,那么他的不确定性,即信息量为4bit。这是怎么算的呢?抛掷硬币数与微观态显然是指数关系,而若已知微观态数,相当于抛掷了多少个硬币(即相当于多少个参考事件的不确定性)是指数运算的逆运算--即对数运算。所以,已知m种微观态,且m种微观态等可能发生,那么不确定性,即信息量计算为信息量\(I=log_2m\),单位是bit。

需要指出的是,上面选择参照事件是抛硬币,完全可以选择其他事件,那么求对数的底就会相应变化。

还有一个问题,现实生活中并不是所有事件的微观态都是等可能发生的,比如完全存在下面这种事件:

事件A有4种微观态abcd,发生的概率分别为\(;;;a:1/6;b:1/6;c:1/6;d:1/2\)。那么事件A的不确定性(即熵,即信息量大小)该如何计算呢?

答案是,分别计算四种微观态的信息量,再加权平均,即各自乘以自己的概率求和:

\(I(A)=P(a)*I(a)+P(b)*I(b)+P(c)*I(c)+P(d)*I(d)\);

那么显然剩下的问题是:\(I(a)\)如何计算?显然不能再用公式\(I=log_2a\)。因为微观态\(a\)作为一个事件,我们是不知道更多细节的。

我们知道,概率\(p = 1/100\)相当于某事件有100种微观态,每种微观态的可能性都是1%。那么显然,概率\(p\)的倒数\(1/p\)就是等可能微观态的数量。那么很显然,微观态\(a\)作为事件的信息量就是\(I(a)=log_2(1/P(a))\)。

从而,计算事件A的信息量变成了:

\(I(A)=P(a)*log_2(1/P(a))+P(b)*log_2(1/P(b))+P(c)*log_2(1/P(c))+P(d)*log_2(1/P(d))\);

更一般的,对于事件(宏观态)A,有m种微观态,其中第i种微观态的可能性是\(P(i)\),那么消除他的不确定性所需的信息量,也就是熵的大小是:\(\sum_{i=1}^{m}{P(i)*log(1/P(i))}\);

需要说明的是,式子中,\(log(1/P(i))\)称作自信息

由此,我们推导出了熵的计算公式:

\(Entropy(A) =\sum_{i=1}^{A}{P(i)*log(1/P(i))}\)

根据数学知识可知:

\(Entropy(A)=E(log(1/P(i)))\),即熵的大小为自信息的期望。

上面的论述是香农理论的基础,也奠定了我们今天的通信基础,但香农完全从数学的角度推导出,我不信有天才,可我实在想不出什么别的词来形容他。

原文地址:https://www.cnblogs.com/duye/p/10498508.html

时间: 2024-10-18 10:00:54

【信息论】如何彻底理解信息和熵?的相关文章

决策树之信息与熵的计算

一.引言 之前提到的k-近邻算法是分类数据最简单最有效的算法.k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据.而且,k-近邻数据必须保全全部数据集,如果训练数据集的很大,必须使用大量的存储空间,此外k-近邻算法必须对数据集中的每个数据计算距离,这是非常耗时的.另外,对于数据的基础结构信息,它也是无能为力的. 另一种分类算法就是“决策树算法”.对待一个数据,决策树使用多个决策判断确定最终的分类,举个小例子说明一下:给定一个动物,判断什么动物的分类,首先“它是哺乳类动物

信息论与编码:信息度量

信息度量 1. 独立与马尔可夫链 独立(Independence) 对于两个随机变量\(X\)和\(Y\),若对所有的\((x, y) \in \mathcal{X} \times \mathcal{Y}\),都有 \[ p(x, y) = p(x)p(y) \] 则称\(X\)和\(Y\)独立,记为\(X \perp Y\). \(p(x), p(y), p(x, y)\)分别是\(\text{Pr}(X=x), \text{Pr}(Y=y), \text{Pr}(X=x, Y=y)\)的简写

理解信息管理系统

1.信息与数据的区别是什么? 数据是记录客观事物,可鉴别的符号,而信息是具有关联性和目的性的结构化,组织化的数据.数据经过处理仍是数据,而信息经过加工可以形成知识.处理数据是为了便于更好的解释,只有经过解释,数据才有意义,才可以成为信息.可以说信息是经过加工以后,对客观世界产生影响的数据. 2.信息与知识的区别是什么? 信息是具有关联性和目的性的结构化,组织化的数据,知识是对信息的进一步加工和应用,是对事物内在规律和原理的认识.信息经过加工可以形成知识. 3.举一个同一主题不同级别的数据.信息.

简单理解信息在计算机中的表示

信息是一个很宽泛的概念,说大了是与物质和能量鼎立的自然界三要素,这里仅仅涉及到计算机中的信息: 众所周知,对计算机自身而言,所有信息都是0/1二进制形式: 作为JavaEE/Android程序员,在开发过程中有时会遇到字符编码,进制转换这样的基础问题,虽然依靠经验或者网络搜索能很快实现功能,但每次都感觉对基本概念理解得不是很透彻,不如把现有的理解记录下来,以备后用: 信息在计算机中大致分为控制信息和数据信息: 控制信息是计算机系统内部运转用到的控制命令,例如读写命令,中断信号,片选信号,复位信号

信息论、最大熵模型与EM算法

七月在线4月机器学习算法班课程笔记--No.8 1. 统计学习基础回顾 1.1 先验概率与后验概率 先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现. 后验概率:依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来. 贝叶斯定理:假设B1,B2,...,

[机器学习]信息&熵&信息增益

关于对信息.熵.信息增益是信息论里的概念,是对数据处理的量化,这几个概念主要是在决策树里用到的概念,因为在利用特征来分类的时候会对特征选取顺序的选择,这几个概念比较抽象,我也花了好长时间去理解(自己认为的理解),废话不多说,接下来开始对这几个概念解释,防止自己忘记的同时,望对其他人有个借鉴的作用,如有错误还请指出. 1.信息 这个是熵和信息增益的基础概念,我觉得对于这个概念的理解更应该把他认为是一用名称,就比如‘鸡‘(加引号意思是说这个是名称)是用来修饰鸡(没加引号是说存在的动物即鸡),‘狗’是

信息论的熵

1.  前言 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度. 在信息论里则叫信息量,即熵是对不确定性的度量.从控制论的角度来看,应叫不确定性.信息论的创始人香农在其著作<通信的数学理论>中提出了建立在概率统计模型上的信息度量.他把信息定义为"用来消除不确定性的东西".在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少. 当我们不知道某事物具体状态,却知道它有几种可能性时,显然,可能性种类愈多,不确定性愈大.不确定性愈大的事物,我们最后确定了

三论 (信息论、控制论、系统论的合称)

http://baike.baidu.com/link?url=_FquXa6qjEaY6sXjqhOjJsE_FgFLFmTtkjdSTdlLeQVe6q7H4zSAwFAxqqhaLMXON1MdhNbxK-fqdlBGk-DLGADTpg4uog0Umwxx0gkUTkb5gCuBqglDABtovXYPiLT1QYRIIyk-kZURpfMU2GHoCYgrSK6v_2dkpCDlALpM12Kg0YPMERv0g4xoRo6W4ziT 系统论 编辑 什么是系统论? 确切地说,系统论应当

熵的来源及相关定义

熵是信息论与编码理论的中心概念.至于条件熵以及互信息都是某种意义上的熵.对于熵的理解是最根本的.几乎所有的信息论教材无一列外的提到熵是刻画信息的多少或者不确定性的.这当然也没有什么问题,但是却立即让人如堕五里雾中,不知熵到底是什么意义.只要稍微钻一下牛角尖,刻画信息或者不确定性为什么非要用这种形式不可呢?在这些书上就难以找到好的答案了.实际上这些定义可以直接从对数的定义得到很清晰的解释.而不需要绕一个圈子从什么信息量.不确定性的角度.刻画信息量或者不确定性可以作为某种解说,但不是最根本最清晰的解