初识最大熵原理

一、概述

  在日常生活中或者科学试验中,很多的事情发生都具有一定的随机性,即最终产生的结果是随机发生的,我们不清楚这些结果是否服从什么规律,我们所拥有的只有一些实验样本,在这种情况下,我们如何根据现拥有的东西对结果产生一个合理的推断呢?最大熵方法就是解决这种问题的一个方法。 最大熵原理是有E.T.Jaynes在1957年提出的,其基本思想如下:在只掌握未知部分的部分知识时,我们应该选取符合这些知识并且熵值最大的概率分布。熵从定义上来说就是一个随机变量的不确定性,熵值最大即不确定性最大。从这方面来看,最大熵原理实质上就是在满足已知所有的知识前提下,对于未知的分布应该是自己最不能确定或者最随机的分布,因为只有这样,最终的分布才能代表一个最公平的选择,任何带有主观性的选择其实质上就是为模型加入了约束条件,而这些条件都是根据目前已知信息所无法得出的。 目前最大熵原理在自然语言处理上已经得到了极大的应用。由于最大熵模型可以将不同源的信息集中到一个框架下进行综合考虑,所以在解决一些复杂问题时体现出极大的优势。也因此,自Della Pietra在1992年首度用最大熵原理进行语言处理,现在越来越多的学者都用最大熵原理处理文本分类、短语识别和词性标注等问题,并且取得了比较满意的效果。

  最大熵模型的基本思想是:当我们对一个随机事件的发生建立预测模型时,模型应当满足全部从训练样本中获取的已知特征信息,而对其他未知的信息不做任何主观假设,在这种情况下,条件概率分布最均匀,预测的风险最小,此时预测模型满足约束条件下的信息熵值最大,所以这种模型被称为“最大熵模型”。生活中所说的不要把所有的鸡蛋都放在同一个篮子里面,就是最大熵思想的一个很朴素的说法,当我们遇到不确定性事件时,就要尽量保留各种可能性,这一原则符合简单可取性。

二、条件最大熵模型

  由于目前很多最大熵模型都是应用在语言处理领域,那么我们就用处理语言举例来阐述最大熵模型。其实最大熵模型最终的任务就是概率估计,即估计目标类y,在实例x或者理解成条件x下出现的概率,即估计p(y|x)的值。x的集合表示成X,y的集合表示成Y。另外,我们用P表示所有条件概率分布的集合,则p(y|x)只是P中的一个元素。 在具体的语言处理中,产生一个y都是要受到x的影响,即假设随机输入一个“吃”字,那么它的上下文肯定是分布在“吃”字周边的一些汉字,即y肯定是集合{动词、名词}中的一个。那么最大熵方法就是基于一些具体的统计学方法,根据x,y之前的出现特征,可靠的估计p(y|x)这个概率模型。 其实最大熵方法在使用的时候并不局限于条件最大熵,最初是估计 p(x)的值,后来才逐渐演变成估计p(y|x),区别起见,通常把p(x,y)或者p(x)成为联合最大熵模型。在语言处理包括文中后来用到的基于内容处理中都是使用条件最大熵模型,在此特此说明。

三、模型简介

  吃”周围的词语就是实例x,词性为y。这里的x实际上就是上下文信息对于“吃”周围词语的一种限制。而y在实际情况当中的可能性则非常巨大,有可能是“吃喝”、“吃苹果”、“好吃”等。由此,我们可以看出实例空间是非常巨大的。从训练样集中,我们可以得到像1 1 2 2 N N(x ,y ),(x ,y ),...,(x ,y ) z主要的经验概率分布,用出现的对数除以总对数表示概率,即最大熵模型先通过这些训练样例来训练模型,然后再顾及p(x,y)的概率分布。 模型框架中的应用系统是利用训练好的模型去估计实例 x’的概率分布p(y|x’),其中1<=y<=Y。最后通过概率的从大到小排列形成最后的推荐结果。

四、协同过滤

  在一般的电子商务系统中,用户往往只会对很少的一部分商品进行评分,整个用户集合与项目集合相关联的是一个非常稀疏的评分矩阵。在计算相似度的方法中,用户或者项目间相关的评分信息非常不充分,反映为两个用户或者项目间共有评分非常有限,因此相似度计算结果非常不可靠,而实际计算出来的相似值往往不是太高,失去了线性相关本身的意义。由此,依靠相似度选择最近邻居的推荐方法在数据稀疏的情形下推荐结果受到严重的负面影响。

五、参考文献

  [1]基于最大熵模鹜解决协同过滤稀  疏性问题研究

  [2]融合用户属性和兴趣的最大熵 推荐算法研究

时间: 2024-10-14 16:59:47

初识最大熵原理的相关文章

最大熵学习笔记(二)最大熵原理

  生活中我们经常听到人们说"不要把鸡蛋放到一个篮子里",这样可以降低风险.深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle).本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导. 相关链接 最大熵学习笔记(零)目录和引言 最大熵学习笔记(一)预备知识 最大熵学习笔记(二)最大熵原理 最大熵学习笔记(三)最大熵模型 最大熵学习笔记(四)模型求解 最大熵学习笔

最大熵原理

最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布.因为在这种情况下,符合已知知识的概率分布可能不止一个.我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难.从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不

zookeeper初识之原理

ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等. Zookeeper是hadoop的一个子项目,其发展历程无需赘述.在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在 某些应用中使用,因此需要有一种可靠的.可扩展的.分布式的.可配置的协调机制来统一系统的状态.Zookeeper的目的就在于此.本文简单分析 zookeeper的工作原理,对于如何使用zookeepe

0909 初识编译原理

#include<stdio.h> #include<stdlib.h> #include<string.h> #define _KEY_WOED_END "waiting for your expanding" //关键字结束标志 typedef struct { int typenum; char * word; }WORD; char input[255]; //输入换缓冲区 char token[255]=""; //单词

小白python爬虫之路——初识爬虫原理

爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息 互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程 多页面爬虫流程: (1)手动翻页并观察各页面的URL构成特点,构造出所有页面的URL存入列表 (2)根据URL列表依次循环取出URL (3)定义爬虫函数 (4)循环调用爬虫函数,存储数据. (5)循环结束,结束爬虫程序. 跨页面的爬虫程序: (1)定义爬

初识HDFS原理及框架

目录 HDFS是什么 HDFS的优缺点 HDFS的框架 HDFS的读写流程 HDFS命令 HDFS参数 1. HDFS是什么 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,首先它是一个文件系统,用于存储文件,通过目录树来定位文件位置:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色. 2.HDFS的优缺点 之所以选择HDFS来存储数据,是具有如下优势: No 优势 描述 1 高容错性 数据自动保存多个副本.它

最大熵算法及简单样例

近期在学模式识别,正在看Introduction to Pattern Recognition这本书,挺不错的一本书.好.以下和大家一起来学习最大熵算法. 首先,最大熵算法是干什么的呢?通常是用来预计一个分布,至于把分布预计出来之后用来干什么,那要视详细问题而定. 那这里的"熵"是什么意思呢?它是指信息熵,一个分布的均匀程度能够用熵的大小来衡量.熵越大,就越均匀.而最大熵就是要求在满足特定约束下,分布是什么样的时候.熵最大.也就是越均匀越好. 为什么在满足特定约束下越均匀越好?由于你已

最大熵模型

我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理称为最大熵原理(the maximum entropy principle). 让我们看一个拼音转汉字的简单的例子.假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字"王小波"和&quo

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑