Distant Supervision for relation extraction without labeled data

Distant Supervision for relation extraction without labeled data

远程监督:使用未标注语料做关系抽取

1. 背景:

关系抽取(某个人是否属于某个组织等)

    关系抽取中使用的3种方法:

a) 监督学习

优点:准确率很高

缺点:1.手工标注金标语料代价昂贵,时间金钱上需要很大的开销,并且数量受限,得不到大量的训练数据; 2.领域受限,标注都是在一个特定的语料中,训练的系统受限于那个领域

b) 无监督学习

优点:可以使用大规模的数据,抽取出大量的关系

缺点:抽取的结果往往比较难映射到特定的知识库

c) Bootstrap learning

往往有低准确率的问题。

d) 远程监督

使用知识库(freebase)来获取weekly labeled training data。

特点:相比监督学习,使用知识库提供训练数据来取代人工标注获取训练数据,没有过拟合的问题和领域依赖的问题;比起无监督,不用解决聚类结果到关系的映射问题,并且使用大规模的训练数据可以得到丰富的特征。

2. 方法介绍

    基本假设: 如果两个实体是某个关系的参与者,任意的一个包含这两个实体的句子都可能表达了这个关系。

训练阶段

    1. 使用 NET(named entity tagger)标注 persons organizations 和 locations;
    2. 对在freebase中出现的实体对提取特征,构造训练数据;
    3. 训练多类别逻辑斯特回归模型。

测试阶段:

    1. 使用 NET(named entity tagger)标注 persons organizations 和 locations
    2. 在句子中出现的每对实体都被考虑做为一个潜在的关系实例,作为测试数据
    3. 使用训练后的模型对实体对分类。

3. 特征选择

3.1. 词汇特征:

a) 两个实体中间的词序列;

b) 这些词的词性标记;

c) 标志位表示哪个实体出现在前面;

d) 大小为k的左窗口;

e) 大小为k的右窗口。

3.2. 句法特征:

a) 两个实体之间的最短依存路径;

b) 两个实体的左右窗口。

3.3. 命名实体tag特征:

人名、地名、组织名和其他

4. 其他注意的地方

连接特征来丢进多类逻辑斯特回归模型。

负例构造:随机选取不在freebase中的实体对(有错误的可能)

训练和测试数据构造:freebase中的关系实例一半用来训练,另一半用来测试。数据使用维基百科数据,2:1的训练和测试数据分配。测试时只对在训练时未出现(不属于训练时的freebase中)的实例对分类。

测试结果选择:对所有实体对分类,并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序,选取top n。

时间: 2024-09-30 19:09:26

Distant Supervision for relation extraction without labeled data的相关文章

Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子

转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1.问题描述 做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多DM.NLP相关的paper在做这方面的工作.基本的思路是: (1)从sentence的parse tree(比如stanford parser)中选取候选target结点和候选opinion结点,然

关系抽取 --- Effective deep memory networks for distant supervised relation extraction

实验 同样用held-out以及[email protected] 结果如下: 从结果看, 本文的方法比Lin 2016 要好, 毕竟考虑了关系的依赖性,不过提升不是很明显,可能原因是数据问题,relation的overlapping比较少. 再看一组对比实验: 分别是去掉word-attention 以及去掉 relation-attention: 可以看出来,去掉relation之后,下降相对来说比去掉word-level更加明显. 总结 这篇文章虽然以Memory Network 为题,不

Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

论文信息:论文,AAAI2020 概述 关系抽取旨在从非结构化文本中抽取结构化的三元组,比如从文本" Barack Obama was born in the United States"中识别实体"Barack Obama"和"United States"的关系是"born in",从而得到(Barack Obama,born in,United States)这个三元组.该任务一个主要的问题是缺乏大量人工标注数据,因此基于

关系抽取 --- Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks

这篇文章从另一个角度来解决Zeng 2015的问题,并且考虑了实体对的多关系的问题. 动机 Zeng 2015里面仅仅取置信度最高的instance,丢失信息. 在数据集中,有约18.3%的entity pair有多种relation, 其他方法均未考虑. 模型 针对以上的两个问题提出了两个解决方法: 对bag内部的所有sentence embeding做instance-max-pooling的操作,具体细节后面介绍 对于多标签,使用多个二分类函数来做多标签分类,即: 使用sigmod计算每一

【DeepLearning】一些资料

记录下,有空研究. http://nlp.stanford.edu/projects/DeepLearningInNaturalLanguageProcessing.shtml http://nlp.stanford.edu/courses/NAACL2013/ Fast and Robust Neural Network Joint Models for Statistical Machine Translation ACL2014的论文列表 http://blog.sina.com.cn/s

PCNN

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks 1. 关键字 关系抽取,远程监督 2. 摘要 本文提出了PCNNs,用来解决远程监督关系抽取中的两个问题:一个是在对齐知识图谱时的错误标注问题,一个是使用NLP工具提取特征时的错误传播问题.对于前者,方法是将对齐问题转化为多实例学习问题,从而将实例标签的不确定性纳入了考虑范围:对于后者,采用成对的最大池化层来自动学习相关的

How much training data do you need?

How much training data do you need?   //@樵夫上校: 0. 经验上,10X规则(训练数据是模型参数量的10倍)适用与大多数模型,包括shallow network. 1.线性模型可以应用10X的经验规则,模型参数是特征选择后的数量(PCA等方法).2.NN可以将10X规则当做训练数据量的下限. The quality and amount of training data is often the single most dominant factor t

[IR] Information Extraction

阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2]               O(x+y) [Qword1 and Qword2]- 改进: Galloping Search   O(2a*log2(b/a)) [Qword1 and not Qword2]        O(m*log2n)  [Qword1 or not Qword2]           O(m+n) [Qword1 and Qword2 and Qword3 and ...

awesome-nlp

awesome-nlp  A curated list of resources dedicated to Natural Language Processing Maintainers - Keon Kim, Martin Park Please read the contribution guidelines before contributing. Please feel free to pull requests, or email Martin Park ([email protect