信息论
熵
如果离散随机变量有P(X)分布,那么x所携带的熵(信息量):
之所以用log2来作为底,是为了方便衡量该信息可以用多少bit来表示。因为1个bit非0即1. 从上公式可以推导出:当k个状态发生的几率一样时,随机变量X所携带的熵越大。正如下图表示的伯努利分布所携带的熵随着概率变化的结果:
KL divergence
KL divergence 全称Kullback-Leibler divergence , 用来衡量两个分布之间的离散程度。公式如下:
H (p, q)
是cross entropy。
KL divergence可以理解为因为咱们使用分布q,而不是用分布p去编码数据,而造成的额外的增加的bit。
mutual information
互信息用来衡量P(x,y)与P(x)P(y)之间的KL divergence,表达式如下,如果他们之间的divergence越大,说明联系就越多。特别的,当divergence为0的时候,P(x)与p(y)恰好独立。p(X,Y)
= p(X)p(Y)
。
用另一种形式表示:
References
PRML
MLAPP
版权声明:本文为博主原创文章,未经博主允许不得转载。
时间: 2024-10-13 01:34:06