关系抽取 --- Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks

这篇文章从另一个角度来解决Zeng 2015的问题,并且考虑了实体对的多关系的问题。

动机

  • Zeng 2015里面仅仅取置信度最高的instance,丢失信息。
  • 在数据集中,有约18.3%的entity pair有多种relation, 其他方法均未考虑。

模型

针对以上的两个问题提出了两个解决方法:

  • 对bag内部的所有sentence embeding做instance-max-pooling的操作,具体细节后面介绍
  • 对于多标签,使用多个二分类函数来做多标签分类,即: 使用sigmod计算每一个类别的概率, 然后判断该bag是否可能有这种关系。

模型的结构如图:

输入也是一个bag,然后利用CNN/PCNN来计算每个sentence的embedding,之后的融合方式很直接,直接对embedding的每一维度取所有sentence的对应维度的最大值。

其中k表示embedding的某一维度,jj表示bag中的第j个句子。 这样就可以融合所有sentence的信息了。后面加一个全连接层计算每一个类别的score:

之后不再是加softmax多分类了,而是使用sigmod函数计算每个relation的概率,然后超过某个阈值,就认为该relation是准确的:

其中ll就是类别的总数。 文中设计了两种损失函数来做对比, Sigmod Loss Vs Squared Loss:

实验 直接看P-R Curve结果,相比PCNN提升比较明显:

再看取max的设计的作用,与直接取平均对比, 这里有点需要说明,在这个实验中,取平均要比PCNN效果好,而在上一篇平均效果差, 这说明的是multi label有提升的作用:

最后一个是两种损失函数的对比:

可以看出,二者在不同的区域各自有优势。

总结

仅仅对bags内的sentence的每一维度取了最大值,就可以得到一个很不错的效果, 可以考虑其他稍微复杂一些的融合方式,从而得到更多的信息,Attention仅仅取权重,其实还是属于线性融合。此外这篇文章仍然也是在该CNN/PCNN基础上进行扩展,从这一点来说创新性有些少。 不过文中提出的Multi Label 则是一个新的方向.

原文地址:https://www.cnblogs.com/dhName/p/11751799.html

时间: 2024-10-10 13:46:05

关系抽取 --- Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks的相关文章

Distant Supervision for relation extraction without labeled data

Distant Supervision for relation extraction without labeled data 远程监督:使用未标注语料做关系抽取 1. 背景: 关系抽取(某个人是否属于某个组织等)     关系抽取中使用的3种方法: a) 监督学习 优点:准确率很高 缺点:1.手工标注金标语料代价昂贵,时间金钱上需要很大的开销,并且数量受限,得不到大量的训练数据; 2.领域受限,标注都是在一个特定的语料中,训练的系统受限于那个领域 b) 无监督学习 优点:可以使用大规模的数据

利用关系抽取构建知识图谱的一次尝试

关系抽取 ??信息抽取(Information Extraction, IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息.关系抽取(Relation Extraction, RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系,是自然语言处理(NLP)中的一项基本任务.比如,我们可以从下面的一段话中, 鸿海集团董事长郭台铭25日表示,阿里巴巴集团董事局主席马云提的新零售.新制造中的「新制造」,是他给加上的.网易科技报导,郭台铭在2018深圳IT领袖峰会谈

Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子

转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1.问题描述 做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多DM.NLP相关的paper在做这方面的工作.基本的思路是: (1)从sentence的parse tree(比如stanford parser)中选取候选target结点和候选opinion结点,然

关系抽取学习

转自:https://www.cnblogs.com/Luv-GEM/p/11598294.html (ok) 1.关系抽取从实现的算法来看,主要分为四种: 1.手写规则(Hand-Written Patterns): 2.监督学习算法(Supervised Machine Learning): 3.半监督学习算法(Semi-Supervised Learning,比如Bootstrapping和Distant Supervision): 4.无监督算法. 2.针对半监督, Bootstrapp

Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

论文信息:论文,AAAI2020 概述 关系抽取旨在从非结构化文本中抽取结构化的三元组,比如从文本" Barack Obama was born in the United States"中识别实体"Barack Obama"和"United States"的关系是"born in",从而得到(Barack Obama,born in,United States)这个三元组.该任务一个主要的问题是缺乏大量人工标注数据,因此基于

关系抽取 --- Effective deep memory networks for distant supervised relation extraction

实验 同样用held-out以及[email protected] 结果如下: 从结果看, 本文的方法比Lin 2016 要好, 毕竟考虑了关系的依赖性,不过提升不是很明显,可能原因是数据问题,relation的overlapping比较少. 再看一组对比实验: 分别是去掉word-attention 以及去掉 relation-attention: 可以看出来,去掉relation之后,下降相对来说比去掉word-level更加明显. 总结 这篇文章虽然以Memory Network 为题,不

oracle db shutdown immediate–multi Instance

[[email protected] ~]$ sqlplus / as [email protected] SQL*Plus: Release 11.2.0.1.0 Production on Tue Oct 6 21:14:51 2015 Copyright (c) 1982, 2009, Oracle.  All rights reserved. Connected to:Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 -

How to set an Apache Kafka multi node – multi broker cluster【z】

Set a multi node Apache ZooKeeper cluster On every node of the cluster add the following lines to the file kafka/config/zookeeper.properties server.1=zNode01:2888:3888 server.2=zNode02:2888:3888 server.3=zNode03:2888:3888 #add here more servers if yo

知识图谱关系抽取

1.deepdive安装 deepdive是斯坦福开发的具有语言识别能力的信息抽取工具,可用作KBC系统(Knowledge Base Construction)的内核.在做知识图谱的时候其是一个十分强大的工具.其安装可参考中文知识图谱开放网的链接.点击打开链接 2.Postgresql安装 deepdive在使用过程中,产生的数据都存放在数据库中,依赖于postgre.mysql等关系型数据库,可以直接输入如下命令在机器上安装postgre,其安装可参考上述的中文只是图谱开放网,也可参考如下链