Distant Supervision for relation extraction without labeled data

远程监督：使用未标注语料做关系抽取

1. 背景：

关系抽取（某个人是否属于某个组织等）

关系抽取中使用的3种方法：

a) 监督学习

优点：准确率很高

缺点：1.手工标注金标语料代价昂贵，时间金钱上需要很大的开销，并且数量受限，得不到大量的训练数据; 2.领域受限，标注都是在一个特定的语料中，训练的系统受限于那个领域

b) 无监督学习

优点：可以使用大规模的数据，抽取出大量的关系

缺点：抽取的结果往往比较难映射到特定的知识库

c) Bootstrap learning

往往有低准确率的问题。

d) 远程监督

使用知识库（freebase）来获取weekly labeled training data。

特点：相比监督学习，使用知识库提供训练数据来取代人工标注获取训练数据，没有过拟合的问题和领域依赖的问题；比起无监督，不用解决聚类结果到关系的映射问题，并且使用大规模的训练数据可以得到丰富的特征。

2. 方法介绍

基本假设： 如果两个实体是某个关系的参与者，任意的一个包含这两个实体的句子都可能表达了这个关系。

训练阶段

使用 NET（named entity tagger）标注 persons organizations 和 locations；
对在freebase中出现的实体对提取特征，构造训练数据；
训练多类别逻辑斯特回归模型。

测试阶段：

使用 NET（named entity tagger）标注 persons organizations 和 locations
在句子中出现的每对实体都被考虑做为一个潜在的关系实例，作为测试数据
使用训练后的模型对实体对分类。

3. 特征选择

3.1. 词汇特征：

a) 两个实体中间的词序列；

b) 这些词的词性标记；

c) 标志位表示哪个实体出现在前面；

d) 大小为k的左窗口；

e) 大小为k的右窗口。

3.2. 句法特征：

a) 两个实体之间的最短依存路径；

b) 两个实体的左右窗口。

3.3. 命名实体tag特征：

人名、地名、组织名和其他

4. 其他注意的地方

连接特征来丢进多类逻辑斯特回归模型。

负例构造：随机选取不在freebase中的实体对（有错误的可能）

训练和测试数据构造：freebase中的关系实例一半用来训练，另一半用来测试。数据使用维基百科数据，2:1的训练和测试数据分配。测试时只对在训练时未出现（不属于训练时的freebase中）的实例对分类。

测试结果选择：对所有实体对分类，并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序，选取top n。

时间： 2024-09-30 19:09:26

Distant Supervision for relation extraction without labeled data的相关文章

Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子

转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1.问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多DM.NLP相关的paper在做这方面的工作.基本的思路是: (1)从sentence的parse tree(比如stanford parser)中选取候选target结点和候选opinion结点,然

关系抽取 --- Effective deep memory networks for distant supervised relation extraction

实验同样用held-out以及[email protected] 结果如下: 从结果看, 本文的方法比Lin 2016 要好, 毕竟考虑了关系的依赖性,不过提升不是很明显,可能原因是数据问题,relation的overlapping比较少. 再看一组对比实验: 分别是去掉word-attention 以及去掉 relation-attention: 可以看出来,去掉relation之后,下降相对来说比去掉word-level更加明显. 总结这篇文章虽然以Memory Network 为题,不

Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

论文信息:论文,AAAI2020 概述关系抽取旨在从非结构化文本中抽取结构化的三元组,比如从文本" Barack Obama was born in the United States"中识别实体"Barack Obama"和"United States"的关系是"born in",从而得到(Barack Obama,born in,United States)这个三元组.该任务一个主要的问题是缺乏大量人工标注数据,因此基于

关系抽取 --- Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks

这篇文章从另一个角度来解决Zeng 2015的问题,并且考虑了实体对的多关系的问题. 动机 Zeng 2015里面仅仅取置信度最高的instance,丢失信息. 在数据集中,有约18.3%的entity pair有多种relation, 其他方法均未考虑. 模型针对以上的两个问题提出了两个解决方法: 对bag内部的所有sentence embeding做instance-max-pooling的操作,具体细节后面介绍对于多标签,使用多个二分类函数来做多标签分类,即: 使用sigmod计算每一

【DeepLearning】一些资料

记录下,有空研究. http://nlp.stanford.edu/projects/DeepLearningInNaturalLanguageProcessing.shtml http://nlp.stanford.edu/courses/NAACL2013/ Fast and Robust Neural Network Joint Models for Statistical Machine Translation ACL2014的论文列表 http://blog.sina.com.cn/s

PCNN

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks 1. 关键字关系抽取,远程监督 2. 摘要本文提出了PCNNs,用来解决远程监督关系抽取中的两个问题:一个是在对齐知识图谱时的错误标注问题,一个是使用NLP工具提取特征时的错误传播问题.对于前者,方法是将对齐问题转化为多实例学习问题,从而将实例标签的不确定性纳入了考虑范围:对于后者,采用成对的最大池化层来自动学习相关的

How much training data do you need?

How much training data do you need? //@樵夫上校: 0. 经验上,10X规则(训练数据是模型参数量的10倍)适用与大多数模型,包括shallow network. 1.线性模型可以应用10X的经验规则,模型参数是特征选择后的数量(PCA等方法).2.NN可以将10X规则当做训练数据量的下限. The quality and amount of training data is often the single most dominant factor t

[IR] Information Extraction

阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2] O(x+y) [Qword1 and Qword2]- 改进: Galloping Search O(2a*log2(b/a)) [Qword1 and not Qword2] O(m*log2n) [Qword1 or not Qword2] O(m+n) [Qword1 and Qword2 and Qword3 and ...

awesome-nlp

awesome-nlp A curated list of resources dedicated to Natural Language Processing Maintainers - Keon Kim, Martin Park Please read the contribution guidelines before contributing. Please feel free to pull requests, or email Martin Park ([email protect