槽填充中模式优化方法的研究

槽填充中模式优化方法的研究(硕士毕业论文) 沈晓卫

针对槽填充任务的实现方法

主要可以分为三种:

第一种是把槽填充任务转换为关系抽取任务,用传统的信息抽取方法来实现槽填充任务,按照具体实现方法的不同,信息抽取方法又可以分为模式匹配的方法和基于分类器的方法

第二种是以问答系统(Question  Answering,QA)为基础,通过把槽填充任务中定义的每一个槽解析为一个等价问题集合的方式来完成槽填充任务。

最后一种是基于规则的方法,即直接依靠人工的方法为每一个槽构建对应的模式库或规则库,然后以这些模式或规则为标准从测试语料中检索出符合标准的实例来完成槽填充任务。

其中以第一种方法:信息抽取方法占据大多数。

常用工具包

斯坦福自然语言处理工具、WordNet。

http://wordnet.princeton.edu/wordnet/

关系抽取

关系抽取任务的实现方法可以分为基于规则的方法和基于机器学习的方法。

前者根据欲抽取关系的特点预先手工设定一些词法、句法和语义模式规则,然后再从自由文本中寻找相匹配的关系实例;

而后者则采用机器学习方法,特别是统计机器学习方法,先通过标注语料库训练得到一个关系抽取模型,然后再利用该模型对自由文本中出现的关系实例进行识别。

使用的方法和性能:

Stanford(基于分类器的信息抽取方法,(distant supervision)使用KB中的实体-槽值实例对)P=10.54%,R=21.41%,F1=14.12%

IBM(基于分类器,最大熵模型distant supervision噪音大)P=31.0%,R=25.9%,F1=28.2%

NYU(基于模式匹配,bootstrapping)P=54.3%,R=11.6%,F1=19.1%

IIRG(问答系统,把槽值查询转化为问题集合)P=66.5%,R=18.6%,F1=29.1%

USFD(手工规则)P=3.1%,F=24.1%,F1=5.5%

依存语法

斯坦福所定义的依存关系

  1. 基准(basic)的表示模式。
  2. 合并(collapsed)的表示模式。
  3. 扩展并列关系(propagation  of  conjunct  dependencies)的合并表示模式。

WordNet

WordNet 通过在同义词集合之间建立同义(synonym)、反义(antonym)、整体(holonym)、部分(meronym)、上位(hypernym)、下位(hyponym)等多种语义关系来把它们连成语义网。

重点是名词和动词。名词是本体的主要组成成分。

训练阶段

(1)  知识库到槽的映射。由于知识库中定义的实体属性和槽填充任务中定义的槽并没有一致性关系,所以首先需要把知识库中实体的信息映射到槽填充任务中定义的槽类型。在系统实现时以斯坦福的词法分析,命名实体识别等解析器为工具,以 KBP提供的实体属性名称到槽的对应关系为标准对知识库中的实体进行映射转换。

(2)  指代替换,检索例句。经过第一阶段的映射操作以后,就可以从知识库中获得大量的实体-槽值对,根据这些实体-槽值对就可以从实体对应的自由文本里检索例句。为了能尽量多的获取到例句,需要对文本中出现的人称代词和所有格代词做一个实体替换操作,例如(共指关系)

(3)  抽取依存路径,生成模式库。为每种槽检索出相应的例句以后,还需要从例句中获取模式,本文基准系统中的模式是以实体和槽之间的依存路径为基础来构建的,依存路径使用的是斯坦福的 53 种依存关系,

测试阶段

(1)首先是相关文档的检索;

(2)目标实体槽值的抽取,获得候选项;

    (3)第三步要做的就是从这些候选项中选择出最终的答案。(wordnet,实体类型,域值)

论文中其他内容讲了(1)修改stanford工具包的依存语法 和 (2)生成的模式筛选的方法。并不是我关心的问题,所以没有继续阅读,省略了。

后续要看的论文:

分类方法:Stanford、UBC、NYU(bootstrapping)

QA方法IIRG和USFD

集成多种方法CUNY

时间: 2024-08-14 12:00:49

槽填充中模式优化方法的研究的相关文章

深度学习之(十一)Deep learning中的优化方法:随机梯度下降、受限的BFGS、共轭梯度法

Deep learning中的优化方法 三种常见优化算法:SGD(随机梯度下降),LBFGS(受限的BFGS),CG(共轭梯度法). 1.SGD(随机梯度下降) 随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模问题. 要想扯清楚它,还得先谈谈梯度下降.众所周知,每个优化问题都会有一个目标函数F(w)F(w),梯度下降采用迭代的策略,从初始点w0w0开始,每次沿着目标函数在当前点的负梯

Caffe中的优化方法

在Deep Learning中,往往loss function是非凸的,没有解析解,我们需要通过优化方法来求解.Caffe通过协调的进行整个网络的前向传播推倒以及后向梯度对参数进行更新,试图减小损失. Caffe已经封装好了三种优化方法,分别是Stochastic Gradient Descent (SGD), AdaptiveGradient (ADAGRAD), and Nesterov's Accelerated Gradient (NAG). Solver的流程: 1.     设计好需

机器学习中常见优化方法汇总

http://www.scipy-lectures.org/advanced/mathematical_optimization/index.html#a-review-of-the-different-optimizers 机器学习中数学优化专门用于解决寻找一个函数的最小值的问题.这里的函数被称为cost function或者objective function,或者energy:损失函数或者目标函数. 更进一步,在机器学习优化中,我们并不依赖于被优化的函数的数学解析表达式,我们通过使用$sc

一些编程中的优化方法

以下是一些基本的编程遵循的守则:   1.尽可能的使用32位数据.因为英特尔的处理器是以32为位基准的,其中对32位进行了优化.   2.对于频繁调用的一些小函数,应声明为内联函数.   3.尽可能的使用全局变量,但避免产生可读性差的代码.   4.避免使用浮点数进行加法和减法运算,因为整数单元通常比浮点数单元运算快.   5.尽可能使用整数.尽管浮点数处理器几乎和整数一样快,但是整数更加的精确.所以如果你不需要精确的小数位,就使用整数.   6.将所有的数据结构均调整为32个字节对齐.在大多数

数学工具(三)scipy中的优化方法

给定一个多维函数,如何求解全局最优? 文章包括: 1.全局最优的求解:暴力方法 2.全局最优的求解:fmin函数 3.凸优化 函数的曲面图 import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl def fm(x,y): return np.sin(x)+0.05*x**2+np.sin(y)+0.05*y**2 x = np.linspace(0, 10, 20) y = np.linspace(0

android开发中图片优化步骤

android开发中图片优化方法 1.图片加载方法,方便用户加载图片 /*** * 加载本地图片 * @param context:主运行函数实例 * @param bitAdress:图片地址,一般指向R下的drawable目录 * @return */ public final Bitmap CreatImage(Context context, int bitAdress) { Bitmap bitmaptemp = null; bitmaptemp = BitmapFactory.dec

软件性能优化方法汇编

本文主要是对平时工作和Ulrich Drepper的<What Every Programmer Should Know About Memory>中软件性能优化方法的总结归纳,主要为了方便日后快速查看和检查,不涉及方法具体细节.本文涉及的软件性能优化手段包括cache.TLB.预取.多线程.总线带宽.NUMA等.日后会不定期更新. cache优化 跳过cache 对于一次性的读写操作(比如网卡收发包等),因为数据不会被重复使用,所以没有必要把数据更新到cache line中,避免换出cach

Android 中对于图片的内存优化方法

Android 中对于图片的内存优化方法,需要的朋友可以参考一下 1. 对图片本身进行操作 尽量不要使用 setImageBitmap.setImageResource. BitmapFactory.decodeResource 来设置一张大图,因为这些方法在完成 decode 后,最终都是通过 Java 层的 createBitmap 来完成的,需要消耗更多内存.因此,改用先通过 BitmapFactory.decodeStream 方法,创建出一个 bitmap,再将其设为 ImageVie

提升网速的路由器优化方法(UPnP、QoS、MTU、交换机模式、无线中继)

在上一篇<为什么房间的 Wi-Fi 信号这么差>中,猫哥从微波炉.相对论.人存原理出发,介绍了影响 Wi-Fi 信号强弱的几大因素,接下来猫哥再给大家介绍几种不用升级带宽套餐也能提升网速的路由器优化方法. 防蹭网 开启 UPnP QoS 与网络限速 设置正确的 MTU 值 使用路由器交换机模式 使用无线中继扩展 Wi-Fi 信号 1.防蹭网 这是最最首要的一条:确认没有陌生人在蹭网! 被蹭网意味着你的 Wi-Fi 密码被泄露(看看是不是不小心用万能钥匙把自家 Wi-Fi 共享出去了?),或者你