机器学习中的数学系列-信息论

>信息

\( i(x)=-log(p(x)) \)

事件x不确定性的度量,不确定性越大,信息量越大

>熵

\( H(X) = \sum_x{-p(x)log(p(x))} \)

随机变量X不确定的度量,信息的期望,不确定性越大,熵越大

>条件熵

\( H(X|Y) \sum_{x,y}{-p(x,y)logp(x|y)}\)

>联合熵

\( H(X,Y) \sum_{x,y}{-p(x,y)logp(x,y)}\)

>互信息

描述事件x发生后,对事件y不确定性的消除

i(y,x) = i(y)-i(y|x) = log(p(y|x))/log(p(y)) = log(后验概率)/log(先验概率)

对称性:i(y,x)=i(x,y)

>平均互信息

\( I(X;Y)= \sum_{x,y}{p(x,y)i(x,y)}= \sum_{x,y}{p(x,y)log\frac{p(y|x)}{p(y)}}= \sum_{x,y}{p(x,y)log\frac{p(x,y)}{p(x)p(y)}} \)

= H(X)-H(X|Y)  ----信息增益

= H(Y)-H(Y|X)

=H(X)+H(Y)-H(X,Y)

=H(X,Y)-H(X|Y)-H(Y|X)

>交叉熵

衡量两个分布的差异性

\(H(T|Y)=-\sum_{p_t(z)logp_y(z)}\)

>相对熵(KL散度)

衡量两个分布的差异性

\( KL(f(x)||g(x)) = \sum_x{f(x)log\frac{f(x)}{g(x)}} \)

总结:

时间: 2024-11-29 03:09:37

机器学习中的数学系列-信息论的相关文章

机器学习中的数学系列-概率与统计

1,基本概念 (1)期望 \( E(X)=\sum_i{x_ip_i} \) ------------------- important ---------------- E(kX) = kE(X) E(X+Y) = E(X)+E(Y) 当X和Y相互独立:E(XY)=E(X)E(Y) (这个不能反向推哦) ----------------------------------------------- (2)方差 \( D(X)=\sum_i{(x_i-E(X))^2p_i} \) 从这个式子可以

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

机器学习中的数学(1)-回归(regression).梯度下降(gradient descent) 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在

机器学习中的数学-回归(regression)、梯度下降(gradient descent)<1>

机器学习中的数学(1)-回归(regression).梯度下降(gradient descent) 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的.在上篇文章中便是基于特征值分解的一种解释.特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计

机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)

机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA) 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义.学习方法等等.一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是

机器学习中的数学(2)-线性回归,偏差、方差权衡

机器学习中的数学(2)-线性回归,偏差.方差权衡 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任.如果有问题,请联系作者 [email protected] 前言: 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得.写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非

(转)机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译.不过还是可以看.另外一个是prml-pattern recogni

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看,简单的random forest还比较容易弄懂,复杂一点的还会与boosting等算法结合(参见i

【机器学习中的数学】贝叶斯框架下二元离散随机变量的概率分布

引言 我感觉学习机器学习算法还是要从数学角度入门才是唯一正道,机器学习领域大牛Michael I. Jordan给出的机器学习定义是,"A field that bridge computation and statistics,with ties to information theory, signal processing, algorithm, control theory and optimization theory".所以对于机器学习的门徒来说,我认为将计算机和统计理论有