槽填充中模式优化方法的研究(硕士毕业论文) 沈晓卫
针对槽填充任务的实现方法
主要可以分为三种:
第一种是把槽填充任务转换为关系抽取任务,用传统的信息抽取方法来实现槽填充任务,按照具体实现方法的不同,信息抽取方法又可以分为模式匹配的方法和基于分类器的方法
第二种是以问答系统(Question Answering,QA)为基础,通过把槽填充任务中定义的每一个槽解析为一个等价问题集合的方式来完成槽填充任务。
最后一种是基于规则的方法,即直接依靠人工的方法为每一个槽构建对应的模式库或规则库,然后以这些模式或规则为标准从测试语料中检索出符合标准的实例来完成槽填充任务。
其中以第一种方法:信息抽取方法占据大多数。
常用工具包
斯坦福自然语言处理工具、WordNet。
http://wordnet.princeton.edu/wordnet/
关系抽取
关系抽取任务的实现方法可以分为基于规则的方法和基于机器学习的方法。
前者根据欲抽取关系的特点预先手工设定一些词法、句法和语义模式规则,然后再从自由文本中寻找相匹配的关系实例;
而后者则采用机器学习方法,特别是统计机器学习方法,先通过标注语料库训练得到一个关系抽取模型,然后再利用该模型对自由文本中出现的关系实例进行识别。
使用的方法和性能:
Stanford(基于分类器的信息抽取方法,(distant supervision)使用KB中的实体-槽值实例对)P=10.54%,R=21.41%,F1=14.12%
IBM(基于分类器,最大熵模型distant supervision噪音大)P=31.0%,R=25.9%,F1=28.2%
NYU(基于模式匹配,bootstrapping)P=54.3%,R=11.6%,F1=19.1%
IIRG(问答系统,把槽值查询转化为问题集合)P=66.5%,R=18.6%,F1=29.1%
USFD(手工规则)P=3.1%,F=24.1%,F1=5.5%
依存语法
斯坦福所定义的依存关系
- 基准(basic)的表示模式。
- 合并(collapsed)的表示模式。
- 扩展并列关系(propagation of conjunct dependencies)的合并表示模式。
WordNet
WordNet 通过在同义词集合之间建立同义(synonym)、反义(antonym)、整体(holonym)、部分(meronym)、上位(hypernym)、下位(hyponym)等多种语义关系来把它们连成语义网。
重点是名词和动词。名词是本体的主要组成成分。
训练阶段
(1) 知识库到槽的映射。由于知识库中定义的实体属性和槽填充任务中定义的槽并没有一致性关系,所以首先需要把知识库中实体的信息映射到槽填充任务中定义的槽类型。在系统实现时以斯坦福的词法分析,命名实体识别等解析器为工具,以 KBP提供的实体属性名称到槽的对应关系为标准对知识库中的实体进行映射转换。
(2) 指代替换,检索例句。经过第一阶段的映射操作以后,就可以从知识库中获得大量的实体-槽值对,根据这些实体-槽值对就可以从实体对应的自由文本里检索例句。为了能尽量多的获取到例句,需要对文本中出现的人称代词和所有格代词做一个实体替换操作,例如(共指关系)
(3) 抽取依存路径,生成模式库。为每种槽检索出相应的例句以后,还需要从例句中获取模式,本文基准系统中的模式是以实体和槽之间的依存路径为基础来构建的,依存路径使用的是斯坦福的 53 种依存关系,
测试阶段
(1)首先是相关文档的检索;
(2)目标实体槽值的抽取,获得候选项;
(3)第三步要做的就是从这些候选项中选择出最终的答案。(wordnet,实体类型,域值)
论文中其他内容讲了(1)修改stanford工具包的依存语法 和 (2)生成的模式筛选的方法。并不是我关心的问题,所以没有继续阅读,省略了。
后续要看的论文:
分类方法:Stanford、UBC、NYU(bootstrapping)
QA方法IIRG和USFD
集成多种方法CUNY