最大熵模型(二)

极大似然估计

上篇文章介绍了最大熵模型以及采用拉格朗日乘子法求解对偶问题,其模型的解如下,

\begin{equation} P_{w}(y|x) = \frac 1 {Z_{w}(x)} \exp {\left( \sum\limits_{i=1}^n w_{i} f_{i}(x,y) \right)} \end{equation}

\begin{equation} Z_{w}(x,y) = \sum\limits_{y} \exp {\left( \sum\limits_{i=1}^n w_{i} f_{i}(x,y) \right)} \end{equation}

然后代入拉格朗日函数得到对偶函数$\Psi(w)$,

\begin{equation} \Psi(w) = L(P_{w},w) \end{equation}

于是对w求$\Psi(w)$的极大,解得 w 代入 (1)和(2)得到 $P_{w}(y|x)$。

本篇我们介绍最大熵模型的极大似然估计,并证明它与上述对偶函数的极大化是等价的。

首先计算$\Psi(w)$,先给出拉格朗日函数

\begin{aligned} L(P,w)  & \equiv -H(P)+w_{0}(1- \sum_{y}P(y|x))+ \sum_{i=1}^n w_{i}(E_{\tilde P}(f_i)-E_{P}(f_i))  \\ & = {\sum_{x,y} \tilde{P} (x)P(y|x)logP(y|x)+w_{0}(1- \sum_{y}P(y|x)) + \sum\limits_{i=1}^n w_{i}(\sum_{x,y} \tilde{P}(x,y)f_{i}(x,y)-\sum_{x,y} \tilde{P}(x)P(y|x)f_{i}(x,y))} \end{aligned}

于是

$$ \Psi(w)  =  \sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)logP_{w}(y|x)  + w_{0}(1-\sum_{y}P(y|x))  + \sum\limits_{i=1}^n w_{i}(\sum\limits_{x,y} \tilde{P}(x,y)f_{i}(x,y)-\sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)f_{i}(x,y)) $$

注意到有如下等式(具体参考上一篇文章)

$$\sum\limits_{y}P(y|x)=\frac{\sum\limits_{y}\exp{\left(\sum\limits_{i=1}^n w_{i} f_{i}(x,y) \right)}} {\exp(1-w_0)}=1$$

化简$\Psi(w)$的表达式,

\begin{equation} \begin{aligned} \Psi(w) & = \sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)logP_{w}(y|x)  + \sum\limits_{i=1}^n w_{i}(\sum\limits_{x,y} \tilde{P}(x,y)f_{i}(x,y)-\sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)f_{i}(x,y)) \\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_{i}f_{i}(x,y) +\sum_{x,y}\tilde{P}(x)P_{w}(y|x)\left(logP_{w}(y|x) - \sum_{i=1}^nw_{i}f_{i}(x,y)\right) \\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_{i}f_{i}(x,y)-\sum_{x,y}\tilde{P}(x)P_{w}(y|x)logZ_{w}(x) \\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x) \log Z_{w}(x) \end{aligned} \end{equation}

其中$Z_{w}(x)$由(2)给出,这就是对偶函数的最终形式。

再看条件概率分布P(Y|X)的对数似然函数,给定训练数据集T,条件概率分布P(Y|X)的对数似然函数为

\begin{equation} L(P) = \log\prod_{x,y}P(y|x)^{\tilde{P}(x,y)} = \sum_{x,y}\tilde{P}(x,y) \log P(y|x) \end{equation}

上式以指数形式引入$\tilde{P}(x,y)$似乎不那么容易理解,这里举个例子类比一下,假设X1,X2,...,Xn~Bernoulli(p),概率密度函数为

$$f(x;p)=p^{x}(1-p)^{1-x}$$

其中x=0,1,未知参数p表示x=1的概率,于是似然函数为,

$$\cal {L}_{n}(p) = \prod_{i=1}^n f(X_i;p) = \prod_{i=1}^n p^{X_i}(1-p)^{1-X_i} = p^{S}(1-p)^{n-S}$$

观察上式这个似然函数,发现本质是如下形式,

$$\cal {L}_{n}(p) = \prod_{i=1}^n p_{i}^{S_i}$$

其中$p_i$是$X_i$的概率,$S_i$是训练集中$X_i$出现次数,这两者的构成一个指数形式的项对应于$X_i$,然后将X所有取值对应的这些项连乘。

类比这里条件概率P(Y|X)的的似然函数,指数的底P(y|x)就是(x,y)构成的条件概率,将指数$\tilde{P}(x,y)$乘以训练数据集大小N这个常数,就是数据(x,y)出现的次数,于是(5)式就是(X,Y)的所有取值(x,y)构成的指数项连乘。

好了,既然理解了对数似然函数的构成,下面再对其进行求解,已知$P_{w}(y|x)$的解由(1)式给出,代入(5)式为,

\begin{equation} \begin{aligned} L(\tilde{P})  & = \sum_{x,y} \tilde{P}(x,y) \log P(y|x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_{i}f_{i}(x,y) - \sum_{x,y} \tilde{P}(x,y) \log Z_{w}(x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_{i}f_{i}(x,y) - \sum_{x} \tilde{P}(x) \log Z_{w}(x) \end{aligned} \end{equation}

发现与(4)式相同,也就是说,对偶函数等价于对数似然函数。

时间: 2024-11-10 15:44:01

最大熵模型(二)的相关文章

统计学习方法 –> 逻辑死地回归与最大熵模型

前言 本章的两个模型都是对数线性模型. 逻辑斯蒂分布 如果变量X服从逻辑斯蒂分布,那么X的分布一定是y轴对称的.曲线在中心部分增长的较快.两端增长缓慢. 二项逻辑斯蒂回归模型 其本质就是条件概率P(Y|X).也就意味着给定X,求出最大可能的Y来. Y取值只有1和0. 考虑条件概率分布. 逻辑斯蒂回归模型:输出Y=1的对数几率是输出x的线性函数的模型. 参数模型估计 还是求极大似然估计. 逻辑回归的优缺点: 优点:1>实现简单         2>计算量小,速度快,存储资源低 缺点:1>欠

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑

最大熵模型简记

最近两天简单看了下最大熵模型,特此做简单笔记,后续继续补充.最大熵模型是自然语言处理(NLP, nature language processing)被广泛运用,比如文本分类等.主要从分为三个方面,一:熵的数学定义:二:熵数学形式化定义的来源:三:最大熵模型. 注意:这里的熵都是指信息熵. 一:熵的数学定义: 下面分别给出熵.联合熵.条件熵.相对熵.互信息的定义. 熵:如果一个随机变量X的可能取值为X = {x1, x2,-, xk},其概率分布为P(X = xi) = pi(i= 1,2, .

最大熵学习笔记(三)最大熵模型

  生活中我们经常听到人们说"不要把鸡蛋放到一个篮子里",这样可以降低风险.深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle).本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导. 相关链接 最大熵学习笔记(零)目录和引言 最大熵学习笔记(一)预备知识 最大熵学习笔记(二)最大熵原理 最大熵学习笔记(三)最大熵模型 最大熵学习笔记(四)模型求解 最大熵学习笔

逻辑回归和最大熵模型

逻辑回归 因变量随着自变量变化而变化. 多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn. 二项分布即重复n次独立的伯努利试验.在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布. 逻辑分布 二项逻辑回归 如何求逻辑回归中的参数W 首先介绍似然

第六章 logistic回归与最大熵模型

1.logistic回归是统计学习中的经典分类方法. 最大熵模型:最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型. 两者都是对数线性模型. 2.二项logstic分类模型:用于二类分布. 多项logstic分类模型:用于多类分布. 3.最大熵模型(maximum entropy model):是由最大熵原理推导实现. 4.熵最大原理:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型. 5.当X服从均匀分布时,熵最大. 6.改进的迭代尺度法(improve

最大熵模型中的数学推导

最大熵模型中的数学推导 查看原文,点击这里 0 引言 写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔.无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班. 10月26日机器学习班第6次课,身为讲师之一的邹博讲最大熵模型,他从熵的概念,讲到为何要最大熵.最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导.晚上我把他的PPT 在微博上公开分

最大熵模型 Maximum Entropy Model

熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory .今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型:若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型.最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主

逻辑斯谛回归与最大熵模型-《统计学习方法》学习笔记

0. 概述: Logistic回归是统计学中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,logistic回归模型与最大熵模型都是对数线性模型. 本文第一部分主要讲什么是logistic(逻辑斯谛)回归模型,以及模型的参数估计,使用的是极大对数似然估计以及梯度下降法,第二部分介绍什么是最大熵模型,首先介绍最大熵原理, 然后根据最大熵原理推出最大熵模型,在求解最大熵模型时候,要引入拉格朗日对偶性(在下一篇文章中)的讲解,将最大熵模型的学习归结为对偶函数的极大化,