条件随机场(CRF) - 1 - 简介

声明:

1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。

2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面。

3,如果有内容错误或不准确欢迎大家指正。

4,如果能帮到你,那真是太好了。

首先我们先弄懂什么是“条件随机场”,然后再探索其详细内容。

于是,先介绍几个名词。

马尔可夫链

比如:一个人想从A出发到达目的地F,然后中间必须依次路过B,C, D, E,于是就有这样一个状态:

若想到达B,则必须经过A;

若想到达C,则必须经过A, B;

以此类推,最终

若想到达F,则必须经过A,B,C,D,E。

如果把上面的状态写成一个序列的话,那就是:{到达A, 到达B, 到达c, ..., 到达F},而且很明显,状态序列的每个状态值取决于前面的状态是否已经满足。

于是,像这样,“状态序列的每个状态值取决于前面有限个状态”的状态序列就是马尔可夫链


TIP:

这个名字中的“链”字用的还是很形象的,因为你可以这样理解,一条“串联在一起的灯泡”是个链子吧,那若想点亮最后一个灯泡(距离插头最远的灯泡),你必须让电流从插头起依次经过所有的灯泡。

于是,如果把上面那个状态序列{到达A, 到达B, 到达c, ..., 到达F}中的每个状态当做灯泡的话,那这个序列就是一条“把灯泡串联在一起的链子”,如下图:

但注意:马尔可夫链的定义是“状态序列的每个状态值取决于前面有限个状态”,注意是“有限个状态”,不是“全部状态”。因此,对于马尔可夫链,其包含“想到达目的地F,则只需要到达目的地E就可以了,而前面的目的地A, B, C, D则到不到达都无所谓”这样的情况。

再注意:这里是为了便于理解而举了个“串联”的例子,真实的马尔可夫链是包含“并行”的情况,因为其定义是“状态序列的每个状态值取决于前面有限个状态”,这就包括“一个人想到达目的地C,那就得先从A处开车并在B处买早餐”这样的情况,这样一来,先到A还是先到B就无所谓了(无论是先去麦当劳买早餐再去开车,还是先开车然后在去麦当劳买早餐都行),只要A和B同时满足就好,如下图:

总之,马尔科夫链中的各个元素既可以是一对一,也可以是一对多,当然也可以是多对一或多对多,参照下图:

隐马尔可夫模型(HMM)

这里仅简单说明下HMM,详细内容见我总结的“隐马尔可夫模型(HMM) -1 ~ 4”。

还用上面一个人从A到F的例子。

但这里需要把条件和内容改一改:

条件更改:

此人想今天逛完A, B,C, D, E, F这几处,但是他想先逛哪个后逛哪个我们不知道。

内容添加:

此人每到达一处,他就会买一个礼物带给你,可这家伙逛的太兴奋了,于是乎带给你的礼物有重复的,因此,最后你会有这样的观测结果:{礼物1,礼物2,礼物1,礼物3,礼物2,礼物2} (于是还是不知道他想先逛哪个后逛哪个)。

结果,我们不知道状态序列(我们不知道他逛的顺序),但是知道观测序列,且每个观测一定是一个状态生成的(礼物一定是他到地方才能买)。

因此这个例子就是在描述:一个不知道状态序列(即马尔科夫链),却知道根据各个状态生成的一个观测随机序列的过程,而这个过程就是隐马尔可夫模型。

用数学定义说明的话就是:

隐马尔可夫模型描述由一个隐藏的马尔可夫链随机生成的不可观测的状态序列,再由各个状态生成一个观测而产生观测随机序列的过程。

OK,HMM的定义说完了,然后我们看看HMM的局限性。

HMM的局限性

1,该模型定义的是联合概率,必须列举所有观察序列的可能值,而这对多数领域来说是比较困难的。

2,基于观察序列中的每个元素都相互条件独立。即:在任何时刻观察值仅仅与状态序列中的一个状态有关。而大多数现实世界中的真是观察序列是有多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。

PS:条件随机场就解决了第二个局限性。

产生式模型和判别式模型

如果你已经了解HMM的话就会知道:HMM中需要计算的概率是“观测序列(输入)和状态序列(输出)的联合概率”,即P(状态序列, 观测序列),即状态序列和观测序列同时发生的概率。

于是乎对于输入x(或者说观察序列)和输出y(或者说标记序列):

构建它们的联合概率分布P(y,x)的模型就是产生式模型,该模型可以根据联合概率生成样本,如:HMM, BNs, MRF。

PS:HMM是隐马尔可夫模型。

构建它们的条件概率分布P(y | x)的模型就是判别式模型,因为没有y的知识,所以无法生成样本,只能判断分类,如:CRF, SVM, MEMM。

PS:CRF就是这里要讲的条件随机场。

产生式模型:无穷样本-->  概率密度模型=产生模型-->  预测

判别式模型:有限样本-->  判别函数=预测模型-->  预测

例子

对四个元素:(1, 0),(1, 0), (2, 0), (2, 1)

产生式模型:求 P(x, y)

因为上面四个元素中(1,0)有两个,所以 P(1, 0) = 2/4 = 1/2

同理:p(1, 1) =0, p(2, 0) = 1/4, p(2, 1) = 1/4.

判别式模型:求P(y|x)

因为对上面四个元素,若x=1,那一定有y=0,所以 P(0|1) =1

同理:p(1|1) =0, p(0|2) = 1/2, p(1|2) = 1/2.

比较

         产生式模型:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,不关心判别边界。

                   优点

实际上带的信息比判别模型丰富,研究单类问题比判别模型灵活性强

能更充分的利用先验知识

模型可以通过增量学习得到

                   缺点

学习过程比较复杂

在目标分类问题中易产生较大的错误率

         判别式模型:寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。

                   优点

分类边界更灵活,比使用纯概率方法或生产模型得到的更高级。

能清晰的分辨出多类或某一类与其他类之间的差异特征

在聚类、viewpointchanges、parital occlusion and scale variations 中的效果较好

适用于较多类别的识别

                   缺点

不能反映训练数据本身的特征

能力有限,可以告诉你是1还是2,但没有办法把整个场景描述出来

         二者关系

由产生式模型可以得到判别模型,反之不能。

条件随机场(CRF)

好了,终于到CRF了,那什么是CRF呢?

这里再举个例子:

假设你基(姬)友给了你ta一天生活的照片(这些照片是排好序的),然后让你给这些照片打上标签(Tag),比如:这张在吃饭,这张在睡觉,这张在唱歌,那么你该怎么做呢?

如果用HMM的思想,那就是:

我手上已经有了观测集合(一天的照片),然后让我求该观测集合对应的状态集合(打Tag)。OK,我开始打Tag了,嗯....这张照片黑乎乎的,那可能在睡觉;这张照片七彩斑斓的,是在KVM吧,那是在唱歌;这张....这张张着大嘴的特写是什么鬼?在吃饭?在唱歌?嗯....看不懂。问问ta好了,(转头),诶?ta人呢?我特!!算了,胡乱给一个!在狼嚎(唱歌)!嗯,就这么愉快的决定了。

于是乎像上面这个例子描述的这样,虽然HMM最终会给出一个结论,但因为HMM的“基于观察序列中的每个元素都相互条件独立”的缺陷,导致其在给某个观测“配对”状态时会毫无根据。

不过我们是人,我们才不会傻乎乎的胡乱猜,那在这样的情况下我们怎么做?答案大家都知道:我们会看看前一张图片是什么,如果前一张图片是在KVM,那这张就很有可能在唱歌;如果前一张是在厨房,那这一张就很有可能在张嘴吃饭。

根据这个例子,我们可以看出,在给某个输出(观测/特征)找其输入(产生“观测/特征”的状态)时,不能不考虑上下文(紧挨着该特征的特征),否则准确性会大大降低。

而这种“HMM强化版的思想”就是CRF了。

好了,下面让我们对比着HMM一步步的理清CRF。

CRF与HMM

首先,我们先把上面的例子简单切换一下:“照片”切换成“单词”,“照片的Tag”切换成“词性标签”(如:名词、动词、形容词等),“给照片打Tag”切换成“词性标注”(即:这个词是名词?动词?还是什么)

而上面在介绍“产生式模型和判别式模型”时说明了CRF属于判别式模型,而这里再详细些,即CRF的本质是:“隐含变量(这里磁性标签是隐含变量)的马尔科夫链” + “可观测状态到隐含变量”的条件概率

好了,下面开始。

PS:后面的“词性标签”和“词语”分别对应“隐含变量,即输入”和“观测状态,即输出”。

先说马尔科夫链部分:

假设CRF和HMM的词性标签都满足马尔科夫性,即,当前词性仅和上一个词有概率转移关系而与其他位置的词性无关,比如:形容词后面跟形容词的概率是0.5,跟修饰性“的”的概率为0.5,跟动词的概率为0。

因此,通过在一个标注集上进行统计,就很容易得到一个概率转移矩阵,即任意词性A后紧邻任意词性B的概率都可以被统计出来。

对HMM来说,这部分就结束了。

但对CRF来说,它在二维的条件转移矩阵的基础上又增加了一维词语特征,如:当AB紧邻,A是动词且单词的长度超过3时,B是名词的概率是xx。

在这个小例子中在判断B时仅考虑一个词A,即统计P(B|A),这当然能够得到很多数据的反馈,而如果在判断B时需要考虑多个词呢?如P(B|ASDFGH),那这就可能会遇到数据稀疏的问题,因为序列ASDFGH根本就没有在数据集中出现过。注意数据稀疏对机器学习的影响是巨大的,因此马尔科夫链在CRF这边会以损失一定的全局信息来换取更饱满的数据,实验证明这笔交易在词性标注时是赚的。

         再说词性(隐含变量,即输入)和词语(观测状态,即输出)的映射概率:

如果是HMM,那就是统计所有的词性组合,然后计算这所有的词性组合生成该单词组合的概率,然后选一个概率最大的词性组合。

CRF正好反过来,CRF通过对挖掘词语本身的特征,把词语转换为一个k维特征向量,然后对于每个特征计算特征到词性的条件概率,这样每个词语对候选词性的条件概率即为所有特征条件概率的加和。比如我们假设特征向量只有两个,且P ( ”词语长度>3" --> 名词词性)的概率为0.9, P("词语位于句子末尾“--> 名词词性)概率为0.4,且一个词恰好满足这两个特征,则其为名词的条件概率为 (0.9 + 0.4) / 2 = 0.65。这样,CRF根据这个条件转移数值再结合词性的马尔科夫特性,就可以使用与HMM类似的方法寻找最优的词性标注序列了。

到此CRF是个什么东西大家应该都了解了吧,下面让我们看看其内部细节(请转到下一节)。

参考文献:

http://baike.baidu.com/link?url=MFzkgH1giyI1MVlkYHPivN_hY1nf6HsGtGqr-OaJEuYB_reXJCQGJYqUn20CnhjRj313nTWpqsl6Ie_Z5MDa3q

http://wenku.baidu.com/link?url=7LBbXiKPWAPnqYexmBOhz4iCUSny6Ayg3M53Ls0IiVKdqLq-9YPNAiW3WKJ5UgihjWKmm4yTpahIIeu75BB_mM_Q1QicaLIGrOiwHUO8ktu

http://blog.sina.com.cn/s/blog_6d15445f0100n1vm.html

http://blog.sina.com.cn/s/blog_605f5b4f010109z3.html

http://lhdgriver.gotoip1.com/%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA%E7%AE%80%E4%BB%8Bintroduction-to-conditional-random-fields/

http://blog.csdn.net/heavendai/article/details/7228621

http://wenku.baidu.com/link?url=kBOg_LBYQDm8ftgIT5xm8rmFC1NN247Ubhp7t_lNgjBJBIFWgQzoffNzMBkQ5LpeLTdJO0Fi0Mf8VRImiN7jtSQwUYhYyJkWgaV3Kj-f9fy

时间: 2024-10-08 07:51:23

条件随机场(CRF) - 1 - 简介的相关文章

条件随机场(CRF) - 1 - 简介(转载)

转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618222.html 首先我们先弄懂什么是"条件随机场",然后再探索其详细内容. 于是,先介绍几个名词. 马尔可夫链 比如:一个人想从A出发到达目的地F,然后中间必须依次路过B,C, D, E,于是就有这样一个状态: 若想到达B,则必须经过A: 若想到达C,则必须经过A, B: 以此类推,最终 若想到达F,则必须经过A,B,C,D,E. 如果把上面的状态写成一个序列的话,那就是:

条件随机场(CRF) - 2 - 定义和形式

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 书上首先介绍概率无向图模型,然后叙述条件随机场的定义和各种表示方法,那这里也按照这个顺序来. 概率无向图

条件随机场(CRF) - 2 - 定义和形式(转载)

转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618218.html 参考书本: <2012.李航.统计学习方法.pdf> 书上首先介绍概率无向图模型,然后叙述条件随机场的定义和各种表示方法,那这里也按照这个顺序来. 概率无向图模型(马尔可夫随机场) 其实这个又叫做马尔可夫随机场(MRF),而这里需要讲解的条件随机场就和其有脱不开的关系. 模型定义 首先是无向图.那什么是无向图呢? 其实无向图就是指没有方向的图....我没有开玩笑,无

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型 一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式 令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征 记做 特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

条件随机场 (CRF) 分词序列谈之一(转)

http://langiner.blog.51cto.com/1989264/379166 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://langiner.blog.51cto.com/1989264/379166 条件随机场 (CRF) 分词序列谈之一Langiner 判别式机器学习技术来解决分词问题,其中判别式机器学习技术主要代表有条件随机场,最大熵/隐马尔科夫最大熵.感知机,支撑向量机等,有关它们的相同点与不同点以后有

条件随机场CRF简介

http://blog.csdn.net/xmdxcsj/article/details/48790317 Crf模型 1.   定义 一阶(只考虑y前面的一个)线性条件随机场: 相比于最大熵模型的输入x和输出y,crf模型的输入输出都是序列化以后的矢量,是对最大熵模型的序列扩展. 相比于最大熵模型的另外一个不同是,crf多出了一个维度j(j表示序列x的位置),即任意一个输出yi,都跟所有的输入x有关. 经过变换,crf概率模型可以转化为: 先求一个位置x的所有特征,再求所有位置x 先求一个维度

条件随机场CRF HMM,MEMM的区别

http://blog.sina.com.cn/s/blog_605f5b4f010109z3.html 首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像词性标注,True casing.但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练

NLP --- 条件随机场CRF详解 重点 特征函数 转移矩阵

上一节我们介绍了CRF的背景,本节开始进入CRF的正式的定义,简单来说条件随机场就是定义在隐马尔科夫过程的无向图模型,外加可观测符号X,这个X是整个可观测向量.而我们前面学习的HMM算法,默认可观测符号是独立的,但是根据我们的实际语言来说,独立性的假设太牵强,不符合我们的语言规则,因此在HMM的基础上,我们把可观测符号的独立性假设去掉.同时我们知道HMM的解法是通过期望最大化进行求解,而CRF是通过最大熵模型进行求解,下面我们就从定义开始看看什么是CRF: CRF定义这里定义只讲线性链随机场,针

条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 学习方法 条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大