信息论小记

一、首先考虑一个离散的随机变量x；当我们观测到这个随机变量的某一个具体值的时候，我们需要考虑这个值给予了我们多少信息，这个信息的量可以看成是在学习x的值的时候的“惊讶程度”(degree of surprise)。如果我们知道事件A一定会发生，那么我们就不会收到关于该事件的信息；如果一件相当不可能的事情发生了，我们将接收到很多信息。、

　　显然，我们对于信息内容的度量将依赖于概率分布p(x)，因此我们要找到一个函数h(x)，它是p(x)的单调递增函数，表示信息的内容，概率学给出了这个公式：

负号确保信息一定是非负数，低概率事件x对应于高的信息量。下面给出的是平均信息量的计算公式：

这个量就是著名的“熵”，对数取2为底数的话熵的单位是bit.条件熵公式如下，即给定x，y的条件熵：

　　如下图所示，如果概率分布p(x)集中于几个值，那么熵就会比较低，如果分布比较均匀，则熵值会比较高，如果有某一个值使得p(x)=1，则熵值为0.

二、相对熵；

　　考虑某个未知的分布p(x)，假定我们已经使用一个近似的分布q(x)对它进行了建模。如果我们使用q(x)来建立一个编码体系，用来把x的值传给接收者，那么，由于我们使用了q(x)而不是真实分布p(x)，因此在具体化x的值时，我们需要一些附加的信息。我们需要的平均的附加信息量（单位是nat，底数为e）为：