关于熵的一些理解

对于理工科学生来说,“熵”并不是一个陌生的名词。在诸如“大学物理”“热力学”和“信息论”等课程中都会有所介绍。但同时“熵”又是一个显得有点神秘的概念,看不见也摸不着。我最早是在高中物理课中听说的,大概是在介绍“热力学第二定律”时提到的。热力学第二定律的内容是:热力学过程是不可逆的——孤立系统自发地朝着热力学平衡方向──最大熵状态──演化。

然后真正的对这个名词有所理解是在学习《工程热力学》的时候。热力学中对熵比较通俗的定义是——对物质的混乱程度的度量。然后有一些“常识性”的结论,比如温度越高熵值越高,冰水混合物中冰不断融化也是熵增过程。对于理想情况下的卡诺循环,有如下公式:

QT=Q′T′

上面的式子中,设想有两个热源,一个卡诺循环从两个热源中抽取一定量的热Q’并释放一定的热量Q,相应的温度为T’和T。卡诺循环包括四个步骤:等温吸热,在这个过程中系统从高温热源中吸收热量; 绝热膨胀,在这个过程中系统对环境作功,温度降低; 等温压缩,在这个过程中系统向环境中放出热量,体积压缩; 绝热压缩,系统恢复原来状态,在等温压缩和绝热压缩过程中系统对环境作负功。然后根据绝热做工和绝热压缩的条件,再根据理想气体公式pv=nRT,就得到了以上的公式。然后将任意的热循环分解为多个卡诺循环就可以得到公式:

∫δQT=0

其中T是任意时候的温度(微积分的思想),然后就导出了熵变的定义:

δS=∫δQT



然后在信息论中的,信息熵的定义如下:

H(x)=?∑i=1rp(xi)?logbp(ai)

式中r为互不相同的消息数目,x为这些消息的集合。

初看之下觉得热力学中的定义和信息学中定义好像风马牛不相及。虽然好些书上都强调这两种定义是统一的,但是我也一直没有理解它们是如何统一的。当时思考这个问题的时候还是在大二,后来也就放下没有去想。最近在看机器学习中“决策树”的部分,涉及到了熵的概念,然后就决定再好好想想这个问题。

从定义来说,信息学中熵的定义明显更有数学美感一些,更加抽象一些。所以我就打算从信息熵的角度去理解热力学熵。

  1. 首先,什么是混乱?混乱的前提是多样化,如果所有东西都是一样的,就没有混乱的概念了。在热力学中,物质的状态体现在热运动。粒子的运动速度是直接和温度相关的。温度越高,粒子的平均速度就越高。注意是平均速度,热运动中会有很多的粒子碰撞,根据动量定理(在微观世界中仍然成立),一定会产生低速粒子。这样一来,温度高的物质中,粒子的速度范围就大了。对应信息熵中的公式中,相当于消息(其实就是一个实际状态)的数目变多了,相应的熵也就增大了。在这个分析中,两者是一致的。
  2. 其次,粒子的状态还有位置。相对位置也是对混乱程度的一个重要度量。如果我们把粒子当做一个个台球,并把它们排成一列(一维分布)。“有序”的情况总是很少的,比如黑球和白球完全不交错,相应的,“无序”状态就很多了。还是根据信息熵的定义,可以知道有序系统的状态比较少,所以熵值就比较低。在这里我们假设每一种排列的概率是一样的,这个假设是比较合理的。这样一想,信息熵和热力学熵确实是统一的。

在思考完上面的东西以后,我才看到维基百科中波尔兹曼原理,发现和自己想的竟然差不多,心中窃喜。内容如下:

1877年,玻尔兹曼发现单一系统中的熵跟构成热力学性质的微观状态数量相关。可以考虑情况如:一个容器内的理想气体。微观状态可以以每个组成的原子的位置及动量予以表达。为了一致性起见,我们只需考虑包含以下条件的微观状态:(i)所有粒子的位置皆在容器的体积范围内;(ii)所有原子的动能总和等于该气体的总能量值。玻尔兹曼并假设:

S=klnΩ

公式中的k是玻尔兹曼常数,Ω则为该宏观状态中所包含之微观状态数量。这个被称为玻尔兹曼原理的假定是统计力学的基础。统计力学则以构成部分的统计行为来描述热力学系统。玻尔兹曼原理指出系统中的微观特性(Ω)与其热力学特性(S)的关系。

根据玻尔兹曼的定义,熵是一则关于状态的函数。并且因为Ω是一个自然数(1,2,3,…),熵必定是个非负数。

好久没有这样认真思考一些理论问题了。科学永远在技术的前面!

时间: 2024-10-13 22:47:54

关于熵的一些理解的相关文章

算法干货----决策树算法中的熵与信息增益

什么是决策树?为什么要用决策树? 决策树是一种二分树,或是多分数.对于大量数据的细分工作有很大帮助.在日常生活中,决策树的算法可谓是每天都在用.小到用户分类,大到辅助决策.实际上他的使用很多. 至于为什么要用到决策树,个人认为就是因为这种算法简单.代码实现起来主要就是IF-ELSE就可以实现.可这一算法的发展也是从ID3--->C4.5----->C5.0. 它的主要步骤就两个:1,建树 2,剪树 如何建树,就是如何分你的数据,按照哪种特性?比如人口统计数据,是按年龄,身高,体重,学历....

损失函数——均方误差和交叉熵

1.MSE(均方误差) MSE是指真实值与预测值(估计值)差平方的期望,计算公式如下: MSE = 1/m (Σ(ym-y'm)2),所得结果越大,表明预测效果越差,即y和y'相差越大 y = tf.constant([1,2,3,0,2]) y = tf.one_hot(y,depth=4) y = tf.cast(y,dtype=tf.float32) out = tf.random.normal([5,4]) # MSE标准定义方式 loss1 = tf.reduce_mean(tf.sq

三论 (信息论、控制论、系统论的合称)

http://baike.baidu.com/link?url=_FquXa6qjEaY6sXjqhOjJsE_FgFLFmTtkjdSTdlLeQVe6q7H4zSAwFAxqqhaLMXON1MdhNbxK-fqdlBGk-DLGADTpg4uog0Umwxx0gkUTkb5gCuBqglDABtovXYPiLT1QYRIIyk-kZURpfMU2GHoCYgrSK6v_2dkpCDlALpM12Kg0YPMERv0g4xoRo6W4ziT 系统论 编辑 什么是系统论? 确切地说,系统论应当

文本分类:特征选择统计量

在文本分类中,用于特征选择的统计量主要有这些: 特征频度(term frequency,tf) 原理是:低频的往往对分类影响不大,从而可以被排除掉.同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的. 应用: 主要用在文本标引时直接删除某些低频特征 2. 文本频度(document frequency,df) 原理是:稀有词条可能是噪声,但也可能对某一类别的区分作用显著 应用:多于tf结合起来使用 3. 信息熵(特征熵) 公式理解: 某个随机变量的取值x能够提供的信息量为l

统计机器学习理论:随机熵、vc熵、退火VC熵、生长函数、VC维定义理解

一.定义: 有n个训练样本Zn={zi(xi,yi), i=1,2,...,n},定义N(Zn)为函数集中的函数能对样本分类的数目.        解释:xi 代表特征向量如d维特征向量,yi代表一个标记如0或1, 因此zi就是对一个特征的标记,Zn中有n个样本,可能的标记方式2n种,一种标记方式就生成一种样本集: N(Zn)为Zn的标记空间中能被正确分类的标记数量. 举例:在二维特征空间中,不共线的3个二维特征向量,其标记方式有23=8种,每一种标记方式都能被指示函数集二维线性分类器正确分类,

【信息论】如何彻底理解信息和熵?

目录 信息和熵 定义熵和信息 消除熵? 假信息? 概率 VS 熵? 信息的度量和熵的计算 信息和熵 ? 飞翔的猪o 说明:本文是作者在看了weixin公众号[超智能体]录制的学习视频后的总结,有需要请移步公众号[超智能体],利益无关,良心推荐.大多数教材都将信息和熵混为一谈,统称为信息熵,这其实是不恰当的,因而有了这篇文章的诞生. 定义熵和信息 定义熵之前,首先说明什么是宏观态和微观态. 具体的一件事情为宏观态,而这件事情有多种可能情况发生,每种可能情况叫微观态. 比如:抛掷硬币这件事,称作宏观

[转] 理解交叉熵在损失函数中的意义

转自:https://blog.csdn.net/tsyccnh/article/details/79163834 关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距.以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便.最近开始研究起对抗生成网络(GANs),用到了交叉熵,发现自己对交叉熵的理解有些模糊,不够深入.遂花了几天的时间从头梳理了一下相关知识点,才算透彻的理解了,特地记录下来,以

直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

目录 交叉熵损失与均方误差损失 损失函数角度 softmax反向传播角度 参考 博客:blog.shinelee.me | 博客园 | CSDN 交叉熵损失与均方误差损失 常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比, 一共有\(K\)类,令网络的输出为\([\hat{y}_1,\dots, \hat{y}_K]\),对应每个类别的概率,令label为 \([y_1, \dots, y_K]\).对某个属于\(p\)类的样本,其label中\(y_p=1\),\(y_1

[机器学习]信息&熵&信息增益

关于对信息.熵.信息增益是信息论里的概念,是对数据处理的量化,这几个概念主要是在决策树里用到的概念,因为在利用特征来分类的时候会对特征选取顺序的选择,这几个概念比较抽象,我也花了好长时间去理解(自己认为的理解),废话不多说,接下来开始对这几个概念解释,防止自己忘记的同时,望对其他人有个借鉴的作用,如有错误还请指出. 1.信息 这个是熵和信息增益的基础概念,我觉得对于这个概念的理解更应该把他认为是一用名称,就比如‘鸡‘(加引号意思是说这个是名称)是用来修饰鸡(没加引号是说存在的动物即鸡),‘狗’是