信息抽取学习笔记

MCU评测任务已经增加到5个:①场景模板填充(scenariotemplate,ST):定义了描述场景的模板及槽填充规范;②命名实体(namedentity,NE)识别:识别出文本中出现的专有名称和有意义的数量短语,并加以归类;③共指(co-reference,CR)关系确定:识别出给定文本中的参照表达(referringexpressions),并确定这些表达之间的共指关系;④模板元素(templateelement,TE)填充:类似于人名和组织机构名识别,但是,要求系统必须识别出实体的描述和名字,如果一个实体在文本中被提到了多次,使用了几种可能的描述和不同的名字形式,要求系统都要把它们识别出来,一个文本中的每个实体只有一个模板元素[GrishmanandSundheim,1996];⑤模板关系(templaterelation,TR):确定实体之间与特定领域无关的关系。

ACE旨在定义一种通用的信息抽取标准,不再限定领域和场景,而是从语义的角度制订一套更为系统化的信息抽取框架,这个框架将信息抽取归结为建立在一定本体论(ontology)基础上的实体、关系、事件的抽取,从而适用于更广泛的领域和不同类型的文本。在评测任务设计上,ACE对MUC的任务进行了融合,评测内容包含:实体检测与跟踪(entitydetectionandtracking,EDT)、数值检测与识别(valuedetectionandrecognition,VDR)、时间识别和规范化(timeexpressionrecognitionandnormalization,TERN)、关系检测与描述(relationdetectionandcharacterization,RDC)、事件检测与描述(eventdetectionandcharacterization,EDC)和实体翻译(entitytranslation,ET)等。

不管系统采用什么样的实现方法,必须解决的关键问题应该包括如下几个方面:①命名实体识别;②句法分析,尤其是短语或语块分析等浅层句法分析和依存句法分析;③共指分析和歧义消解;④实体关系识别:确定文本中两个实体之间在某一时间范围内所存在的关系;⑤事件识别:识别多个实体之间的存在关系,包括经历一段时间之后实体状态以及实体之间关系的改变。另外,语篇的分析,包括语篇的结构分析和逻辑分析也是不可忽视的一个问题。当然,对于汉语文本而言,自动分词问题始终是一个无法绕过的拦路虎。

开放式信息抽取的重点:开放式实体抽取、实体消歧和开放式实体关系抽取

信息抽取工具包:Gate https://gate.ac.uk/

articles:

https://www.rroij.com/open-access/a-study-of-information-extraction-tools-foronline-english-newspapers-pdfcomparative-analysis.php?aid=46978

http://www.bearcave.com/misl/misl_tech/nlp.html

http://www.cs.utexas.edu/~ml/papers/text-kddexplore-05.pdf

http://www.cs.nyu.edu/grishman/tarragona.pdf

http://keg.cs.tsinghua.edu.cn/jietang/publications/Tang-et-al-Information_Extraction.pdf

https://en.wikipedia.org/wiki/Information_extraction

时间: 2024-08-07 07:09:17

信息抽取学习笔记的相关文章

13、openssl、ssh、脚本信息捕获 学习笔记

PKI:Public Key Infrastucture openssl: 套件,开源程序 libcrypto通用功能的加密库 libssl用于实现TLS/SSL的功能 openssl多功能命令行工具 openssl可用于:生成密钥.创建数字证书.手动加密解密数据 加密解密技术常用的功能及算法: 对称加密:(用于加密数据) 算法:DES, 3DES, AES, Blowfish, Twofish, RC6, CAST5 工具:gpg, openssl enc # openssl enc -des

python学习笔记十——异常处理

1.try: command except 错误类型,记录错误信息变量: command finally: command try...finally的用处是无论是否发生异常都要确保资源释放代码的执行.一般来说,如果没有发生错误,执行过try语句块之后执行finally语句块,完成整个流程.如果try语句块发生了异常,抛出了这个异常,此时就马上进入finally语句块进行资源释放处理.如下从几个细节讨论finally的特性. 1).try中的return: 当在try语句块中含有return语句

php Laravel安装教程学习笔记

在一切环境就绪了,当然就要开始了解框架了. 站在巨人的肩膀上,学东西会事半功倍.我在网上找到一篇好文章,正好可以让我轻松了解Laravel应用程序的体系结构.因此借来直接用了. 该章节内容翻译自<Architecture of Laravel Applications>,一切版权为原作者,由于原作者写这篇文章时Laravel版本还没有到4.1,一些地方有稍微差别,我会稍作修改. 原作者:Stable Host, LLC(不知道找对了没有) 翻译作者:Bowen Huang 正文: Larave

struts2学习笔记(二)—— 获取登录信息及计算在线人数

实现目的: 1.点击"Login"的超链接,进入登录页面 2.填写登录信息,提交表单,将用户信息保存进Session 3.显示用户名,并计算在线人数 4.点击"Logout"的超链接,在线人数减一,并使Session失效 Struts2实现: 1.配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http:/

Android学习笔记(四七):Content Provider初谈和Android联系人信息

Content Provider 在数据处理中,Android通常使用Content Provider的方式.Content Provider使用Uri实例作为句柄的数据封装的,很方便地访问地进行数据的增.删.改.查的操作.Android并不提供所有应用共享的数据存储,采用content Provider,提供简单便捷的接口来保持和获取数据,也可以实现跨应用的数据访问.简单地说,Android通过content Provider从数据的封装中获取信息. Content provider使用Uri

【改自lg2lh】EZ-USB 68013 学习笔记--设备信息安装文件CyUSB.inf详细说明

首先要明白一个INF文件的基本结构:INF由节组成,即一个个段组成.每个段的功能不一样.(大部分书上把这个段叫作"节") [Version]段:主要用说明版本信息的. [Strings]段:字符串信息,用于常量定义,用于显示.凡在其他段中出现的%XXXX%(就是两个百分号夹着一组字母),则对应的就会在Strings段里对应着它的一个字符串. [SourceDisksNames]段:定义安装源文件所在磁盘,一般为1,表示在第一个磁盘.此节可无. [SourceDiskFiles]段:驱动

《Javascript权威指南》学习笔记之十九--HTML5 DOM新标准---处理文档元信息和管理交互能力

一.了解DOM 1.DOM是Document Object Model的缩写,即文档对象类型,是文档在内存中的表示形式,是一个应用程序接口,定义了文档的逻辑结构以及一套访问和处理文档的方法. 2.HTML DOM与Core DOM的区别:前者提供了大量的方法和属性,与现有的程序模型一致,更便于脚本的编写者控制. 二.document对象 使用window.document属性返回一个document对象,代表当前window内加载的文档.window可以省略.winName.document返回

学习笔记:硬盘信息查看与检测

mkfs:make file system -t  fstype mkfs -t ext3 /dev/sda4 (其中默认5%预留给了管理员用户) mkfs -t ext2 =mkfs.ext2 mke2fs:专门用来管理ext系列的文件系统,选项多 -j :ext3 mke2fs -j /dev/sda4 -b block_size:指定块大小(默认4096,可用取值1024,2048,4096) 若文件小多,可以用1024或者2048 mke2fs -b 2048 /dev/sda4 -L

Hadoop源码学习笔记(2) ——进入main函数打印包信息

Hadoop源码学习笔记(2) ——进入main函数打印包信息 找到了main函数,也建立了快速启动的方法,然后我们就进去看一看. 进入NameNode和DataNode的主函数后,发现形式差不多: public static void main(String args[]) {     try {       StringUtils.startupShutdownMessage(DataNode.class, args, LOG);       DataNode datanode = crea