条件随机场(一)

概率无向图模型

又称马尔可夫随机场(Markov random field)或马尔可夫网络,是一个由无向图表示的联合概率分布。

图是由结点和边组成,无向图中的边没有方向。概率无向图中结点表示随机变量,边表示结点之间的概率依赖关系。

成对马尔可夫性

设u和v是无向图G中任意两个没有连接边的结点,对应随机变量分别为Yu和Yv,图中其他所有结点为O,对应随机变量组YO,那么给定随机变量组YO的条件下,Yu和Yv是条件独立的,此为成对马尔可夫性,即

       (1)

局部马尔可夫性

设v是无向图G中的任意一个节点,W是与v有边连接的所有结点,O是除v和W之外的其他所有结点(即,与v没有边连接的所有结点),给定随机变量组YW的条件下,Yv与YO是条件独立的,此为局部马尔可夫性,即,

     (2)

如果P(YO|YW)>0,那么(2)式两边同时除以P(YO|YW),

   (3)

下图表示局部马尔可夫性,

上图中,假设某个黑点表示v,那么与其有边连接的有一个或大于一个白点为W,剩余的其他点(包括白点和黑点)为O。

全局马尔可夫性

设结点集合A和B是在无向图G中被结点集合C分开的任意结点集合,结点集合A,B,C所对应的随机变量组分别是YA,YB,YC,给定随机变量组YC的条件下,YA和YB是条件独立的,此为全局马尔可夫性,即,

      (4)

可用下图表示全局马尔可夫性,

从图中可见,A中任意结点到B中任意结点之间的所有路径,都经过C中结点,也就是说被C隔断,A和B关于C条件独立。

不难发现上述成对、局部和全局 马尔可夫性是等价的,从特殊到一般的过程。

概率无向图

设联合概率分布P(Y)由无向图G=(V,E)表示,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型。

无向图G中如果存在一个结点子集,并且子集中任意两个结点均有边连接,则称这样的子集为团(clique)。

若C是G中的一个团,并且无法再加入一个G的其他结点,使C成为一个更大的团,那么C就是一个最大团。

如下图,由两个结点组成的团为:{Y1,Y2},{Y2,Y3},{Y3,Y4},{Y4,Y2},{Y1,Y3},有两个最大团:{Y1,Y2,Y3},{Y2,Y3,Y4}。

将概率无向图的联合概率分布表示为其最大团上的随机变量的函数乘积形式的操作,称为因子分解。

给定概率无向图G,C为G上的最大团,YC表示C对应的随机变量组,那么G对应的联合概率分布P(Y)为G中所有最大团C上的函数的乘积,

             (5)

其中,Z是规范化因子,即

               (6)

规范化因子保证P(Y)构成一个概率分布,即对P(Y)求和为1。函数 称为势函数,是一个严格正的函数,通常定义为指数函数,

          (7)

条件随机场

给定随机变量X的条件下,随机变量Y的马尔可夫随机场称为条件随机场。这里主要涉及线性马尔可夫链,所以就介绍线性链上的特殊的条件随机场,称为线性链条件随机场。在条件概率模型中P(Y|X),Y是输出变量表示标记序列(或状态序列),X是输入变量表示需要标注的观测序列。利用训练数据集通过极大似然估计或正则化的极大似然估计学习条件概率模型。

设随机变量X和Y,P(Y|X)表示给定X的条件下Y的条件概率分布。若Y构成一个由无向图G=(V,E)表示的马尔可夫随机场,即

   (8)

对任意结点v 成立,则称条件概率分布P(Y|X)为条件随机场。其中w~v表示图G中与v结点有边连接的所有结点w,w!=v表示结点v以外的所有结点。从上式可见,在给定X的大前提下,给定除v 之外所有结点条件下 v的条件概率,与 给定v结点有边连接的所有邻结点条件下v 的条件概率 相等,也就是说 v结点 与 除v和v的邻结点w之外的所有结点子集关于w条件独立,这正好就是指局部马尔可夫性。

实际中,一般假设X与Y有相同的图结构。

考虑如下图所示的线性链,此时图G可以表示为:G=(V={1,2,...,n}, E={(i,i+1)}), i=1,2,...,n-1,此时X=(X1,X2,...,Xn),Y=(Y1,Y2,...,Yn),最大团是相邻两个结点的集合。

 

      线性链条件随机场               X和Y有相同图结构的线性链条件随机场

线性链条件随机场

设X=(X1,X2,...,Xn),Y=(Y1,Y2,...,Yn)均为线性链表示的随机变量序列,给定X的条件下,Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔可夫性:

              (9)

其中,i=1,2,...,n,且在i=1和n的时候分别只考虑右边 和 左边,此时 P(Y|X)表示线性链条件随机场。

在标注问题中,X表示观测序列,Y表示对应的标注序列(或状态序列)

至此,以上内容都不难理解,然而下面给出线性链条件随机场的参数化形式则不是很显然的了,事实上,稍显突兀,不过没关系,本篇文章只要对上述内容能够理解即可,下面的参数化形式后面还要进行深入讨论的,这里只需有个印象便可。

设P(Y|X)为线性链条件随机场,则随机变量X取值为x的条件下,随机变量Y取值为y的条件概率为,

      (10)

其中,

            (11)

式中,tk和sl是特征函数,λk和ul是对应的权值,Z(x)是规范化因子,求和是在所有可能的输出序列{y}上进行的。

(10)和(11)是线性链条件随机场模型的参数化形式,表示给定输入序列x,对输出序列y的预测的条件概率。其实,tk 是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,sl 是定义在结点上的特征函数,称为状态特征,依赖于当前位置。tk 和 sl 都依赖于位置,是局部特征函数,通常, tk 和 sl 取值为 1 或 0; 当满足特征条件时取值为1,否则为0。

ref

统计学习方法,李航

时间: 2024-11-06 17:23:18

条件随机场(一)的相关文章

条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 学习方法 条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大

条件随机场(CRF) - 2 - 定义和形式

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 书上首先介绍概率无向图模型,然后叙述条件随机场的定义和各种表示方法,那这里也按照这个顺序来. 概率无向图

概率模型与条件随机场

1.概率模型 机器学习中的很多模型可以根据概率分布形式分为生成模型和判别模型,其中生成模型以输入输出的联合分布P(X,Y)为基础建模,如朴素贝叶斯.隐马尔可夫模型:判别模型以条件概率分布P(Y|X)为基础建模,如最大熵模型.条件随机场等.这几个模型之间有一定的关系,它们的关系如下: 其中,NB表示朴素贝叶斯,ME表示最大熵,HMM表示隐马尔科夫,CRF表示条件随机场.joint联合分布,conditional条件分布.single class输出单一类别,sequence输出序列.例如,朴素贝叶

机器学习实战——条件随机场(CRF)

声明:本文是在<最优化方法>课程中阅读的Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data这篇文章后的总结. CRF由来 条件随机场(CRF)这种用来解决序列标注问题的机器学习方法是由John Lafferty于2001年发表在国际机器学习大会ICML上的一篇经典文章所引入,对后人的研究起到了非常大的引领作用.特别是标注问题在很多自然科学领域有广泛应用,在自然语言处理

条件随机场(CRF)-基础

条件随机场(conditional random fields,简称 CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词.词性标注.命名实体识别等领域有较好的应用.CRF是在马尔可夫随机场的基础上加上了一些观察值(特征),马尔可夫随机场<=>概率无向图模型.本篇将首先介绍CRF的一些基础知识,然后介绍线性链条件随机场模型,关于模型的学习算法将放在第二篇中介绍,第三篇介绍CRF的应用. 1主要概念 1.1概率无向图模型 概率无向图模型是一种

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型 一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式 令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征 记做 特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

机器学习 —— 条件随机场模型

1.背景 有了强大的log-linear模型,连水槽都能拿来做分类特征了,当然要想办法用一下试试了.log-linear模型的输入是一系列几乎接近自然语言的特征方程,这种抽象的东西拿来做语义识别自然是再好不过了.语义识别有一个重要的步骤,叫做 ”给句子贴标签“,简而言之,就是给定一个句子,通过识别其中一些特征:比如存在人名,地名,日期,商品名称,从而判断这个句子的属性(做交易,下任务,更改设置等.) 能够准确的识别句子中的这些 tag 可以有助于理解一个句子.但是要怎样来确定某个单词是不是地名或

条件随机场入门(三) 条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场 P(Y|X) ,输入序列 x 和输出序列 y ,计算条件概率 $P(y_i|x)$ , $P(y_{i-1},y_i|x)$ 以及相应的数学期望的问题.为了方便起见,像 HMM 那样,引进前向-后向向量,递归地计算以上概率及期望值.这样的算法称为前向-后向算法. 前向-后向算法 对每个指标 $i = 0,1,-,n+1$ ,定义前向向量 $a_i(x)$ ,对于起始状态 $i=0$: \[a_0(y|x) = \left \{ \begin{aligne

条件随机场(CRF)原理和实现

版权声明:作者:金良山庄,欲联系请评论博客或私信,个人主页:http://www.jinliangxu.com/,CSDN博客: http://blog.csdn.net/u012176591 目录(?)[+] 作者:金良([email protected]) csdn博客: http://blog.csdn.net/u012176591 对数域操作函数 class Logspace: def __init__(self): self.LOGZERO =np.nan def eexp(self,

猪猪的机器学习笔记(十八)条件随机场

条件随机场 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第十八次课在线笔记.条件随机场是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列. 引言: “条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马尔科夫模型(HMM),像基于类的中文分词.但隐马尔可夫模型中存在两个假设:输出独立性假设和马尔可夫性假设.其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能