【NLP】基于机器学习角度谈谈CRF

基于机器学习角度谈谈CRF

2016年8月3日08:39:14

【摘要】：条件随机场用于序列标注，数据分割等自然语言处理中，表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中，对条件随机场的了解，逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的相关的相关，最后进行大量研究整理汇总成体系知识。文章布局如下：第一节介绍CRF相关的基础统计知识；第二节介绍基于自然语言角度的CRF介绍；第三节基于机器学习角度对CRF介绍，第四节基于统计学习角度对相关知识介绍；第五节对统计学习深度介绍CRF，可以作为了解内容。（本文原创，转载请注明出处：基于机器学习角度谈谈CRF。)

1 条件随机场（可以看作给定观察值的马尔科随机场）

CRF是一种判别式无向图模型

CRF试图对多个变量在给定观测值后的条件概率进行建模，具体来说，若令为观察序列，为与之对应的标记序列，则CRF的目标是构建条件概率模型P(Y|X)。

注意：标记变量y是结构型变量，如在自然语言处理的句子标注任务中，观测数据为句子，标记为相应的词性序列，具有线性序列结构，在语法分析中，输出标记是语法树，具有树形结构。

令G=<V，E>表示结点与标记变量y中元素一一对应的无向图，表示与结点v对应标记变量，n（v）表示结点v的领结点，若图G的每一个变量都满足马尔科夫性，即

，则（y，x）构成一个CRF。

上面形式化在第二章已经通过实例解析介绍过。

2 链式条件随机场

如上面句子标注，因为现象应用中，对标记序列建模时，常有链式结构（具体链式结构前面有介绍）

与马尔科夫随机场定义联合概率概率的方式类似，CRF使用势函数和图结构上的团来定义条件概率P(y|x)给定观察序列X，所谓团即单个标记变量{}以及相邻标记变量选择合适的势函数，即形如：

的条件概率定义，其中与Q对应的势函数，为规范因子，实际中，往往Z不需要获得精确值。

在CRF中，通过选用势函数并引入特征函数，条件概率定义如下：

如上参数在第二章有详细讲解。

特征函数：

句子标注为例的转移特征函数

表示第i个观察值为“爱”时，相对的标记分别是B，I，其状态特征函数如下：

表示观察值x为单字“爱”时，它对应的标注很可能为I

3 参考文献

【1】数学之美吴军著

【2】机器学习周志华著

【3】统计自然语言处理宗成庆著（第二版）

【4】统计学习方法（191---208）李航

【5】知乎网络资源

4 自然语言相关系列文章

【自然语言处理】：【NLP】揭秘马尔可夫模型神秘面纱系列文章

【自然语言处理】：【NLP】大数据之行，始于足下：谈谈语料库知多少

【自然语言处理】：【NLP】蓦然回首：谈谈学习模型的评估系列文章

【自然语言处理】：【NLP】快速了解什么是自然语言处理

【自然语言处理】：【NLP】自然语言处理在现实生活中运用

声明：关于此文各个篇章，本人采取梳理扼要，顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成，旨在技术分享，知识沉淀。在此感谢原著无私的将其汇聚成书，才得以引荐学习之用。其次，本人水平有限，权作知识理解积累之用，难免主观理解不当，造成读者不便，基于此类情况，望读者留言反馈，便于及时更正。本文原创，转载请注明出处：基于机器学习角度谈谈CRF。

时间： 2024-10-13 11:42:59

【NLP】基于机器学习角度谈谈CRF的相关文章

基于机器学习的web异常检测

基于机器学习的web异常检测 Web防火墙是信息安全的第一道防线.随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战.传统web入侵检测技术通过维护规则集对入侵访问进行拦截.一方面,硬规则在灵活的黑客面前,很容易被绕过,且基于以往知识的规则集难以应对0day攻击:另一方面,攻防对抗水涨船高,防守方规则的构造和维护门槛高.成本大. 基于机器学习技术的新一代web入侵检测技术有望弥补传统规则集方法的不足,为web对抗的防守端带来新的发展和突破.机器学习方法能够基于大量数据进行

（5）【整合】基于机器学习的酒店评论文本倾向性分析

酒店评论情感分析系统(五)—— [整合]基于机器学习的酒店评论文本倾向性分析本文主要是对之前的第三.四节所介绍的各分块进行整合. 流程: 对GUI界面输入的评论文本,先进行中文分词和去停用词,然后再按“环境,价格,卫生,服务”四个方面分类:同时通过调用LingPipe中的DynamicLMClassifier,对已标注的“中文情感挖掘酒店评论语料”库的学习,构造一个基本极性分析的分类器.最后用此分类器分别对整个评论文本给出总体评价和对四个方面分别给出相应的情感评价. 环境: 1. 操作系统:w

从法学的角度谈谈“接口”--基于C#

接口(interface),这是C#的基础之一,是实现多态的必要工具. 然而,由于中文中"接口"的多意性,使得我在学习的时候陷入了一个误区,大大困扰了我的学习进度. 因为我在学习这个知识时,第一反应的是下面这种接口: 看网上的视频,老师们首先举的例子也是这种.然而,这种举例是不恰当的.因为,这种接口英文是input/output,也就是所谓的I/O.顾名思义,这种接口的主要作用是传递输入和输出信息.不同的I/O实际上是规定了不同的连接方式和信息传播方式. 那该怎么理解C#中的接口呢?最

【NLP】蓦然回首：谈谈学习模型的评估系列文章（三）

基于NLP角度的模型评价方法作者:白宁超 2016年7月19日19:04:51 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量.于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间.本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用.本文布局如下:第一章采用统计学习角度介绍什么是学习模型以及如何选择,因为现今的自然语言处理方面大都采用概率统计完成的,事实证明这也比规则的方法好.第二章采用基

AI干货（一）：为什么说基于机器学习的AI预测更智能？

在观远数据"AI+BI"的服务模式中,AI技术作为跨越敏捷分析到智能决策的关键推力,一直以来引起了众多企业客户的好奇与关注.因此我们推出了这一特别企划,希望借此机会与大家分享观远团队关于AI技术的各项认知,并结合我们与500强企业合作的最佳实践案例,为AI技术在零售行业落地提供建议指导.接下来,就跟着我们一起进入AI的神秘世界吧! 趋势当下,人工智能已成为科技领域最热门的技术.机器学习.深度学习.人脸识别.无人驾驶.NLP,各种名词不绝于耳.人工智能的应用一方面在不断改变我们每个人的

LibRec：基于机器学习的大数据推荐系统

简介: LibRec 是领先的推荐系统Java开源算法工具库,覆盖了70余个各类型推荐算法,有效解决评分预测和物品推荐两大关键的推荐问题.推荐系统是机器学习和大数据技术的经典实际应用,旨在提供高效准确的个性化物品推荐,是现代Web应用的重要组件. 项目结构清晰,代码风格良好,测试充分,注释与手册完善.目前项目使用GPL3.0协议开源在github中,欢迎大家试用. Librec: http://www.librec.net/ GithubRepo: https://github.com/guo

【人脸检测——基于机器学习4】HOG特征

前言 HOG特征的全称是Histograms of Oriented Gradients,基于HOG特征的人脸识别算法主要包括HOG特征提取和目标检测,该算法的流程图如下图所示.本文主要讲HOG特征提取. HOG特征的组成 Cell:将一幅图片划分为若干个cell(如上图绿色框所示),每个cell为8*8像素 Block:选取4个cell组成一个block(如上图红色框所示),每个block为16*16像素.Block的滑动步长为8像素,如黄色箭头所示 Detection Window:令64*

阴谋还是悲剧？- 基于机器学习假设检验视角，看泰坦尼克号事件

1. 引言 0x1:故事背景泰坦尼克号(RMS Titanic),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,排水量46000吨,于1909年3月31日在北爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航.泰坦尼克号是当时世界上体积最庞大.内部设施最豪华的客运轮船,有“永不沉没”的美誉 .然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运——它从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰科夫(Cobh),驶向美国纽约

【无人驾驶技术揭秘】从机器学习角度揭秘学习型避障小车的设计思路