结构信息论—结构信息度量
------------李昂生教授
网络空间大数据信息处理的高效算法要求满足高精度和快速两个主要指标。快速容易理解,高精度一直是一个难题,原因在于我们常常不知道要优化的目标是什么。现实世界的大数据空间是客观世界生成的对象(对象是有结构的,往往可以看成一个图),是有规律的,也有噪音和随机性,我们知道规律嵌在大规模噪音结构中,但是不知道标准答案是什么。事实上,信息处理的根本任务就是从大规模噪音结构中解码出嵌入其中(物理系统)的规律。解决网络空间大数据高精度问题需要有一个新的信息论,它能度量嵌入在复杂系统中的信息,这个信息量能区分网络空间大数据的规律与噪音,从而解码出嵌入在大规模噪音结构中的规律。这就是本文介绍的新理论——结构信息论。
计算机的根本任务是信息处理,一直以来,信息处理的理论基础都是Shannon信息论。Shannon信息论以及概率、统计学为很多数据分析与信息处理提供了理论基础。然而,随着新型大数据的出现,这些数据之间有着复杂的关系,数据的知识与规律嵌入在大规模的噪音结构中。对这些大数据的编码、压缩、解码、知识提取、数据结构分析要求我们能度量嵌入在复杂系统中的信息,这种信息决定并解码出该复杂系统的实质结构,这种实质结构支撑着复杂系统的功能语义。大数据时代的这一新使命使得度量结构信息更加凸显为一个基本科学问题。
长期以来,学术界没有一个定义,也没有一个度量来确定系统的信息。实际中的做法是,根据系统结构提取一个概率分布,利用概率分布的信息来度量系统的信息。直到最近,笔者和潘祎诚第一次提出了一个结构信息的度量,它可以度量嵌入在一个图中的高维信息(或深度信息),并且在度量结构信息的同时解码出原系统的实质结构,以支撑系统的语义分析。结构信息是定义在图上的,然而,同样的度量也可以对概率分布来定义,这时,可以证明,对任意的编码树,该分布在编码树下的结构熵退化为分布的Shannon熵。因此结构熵是Shannon熵的自然推广,从无结构的概率分布扩充到任意结构的图上。...............................
原文地址:https://www.cnblogs.com/jeshy/p/10519619.html