机器阅读理解中文章和问题的深度学习表示方法

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/

author: 张俊林

注:本文是《深度学习解决机器阅读理解任务的研究进展》节选,该文将于近期在“深度学习大讲堂”公众号发布。



2.1文章和问题的表示方法

用神经网络处理机器阅读理解问题,首先面临的问题就是如何表示文章和问题这两个最重要的研究对象。我们可以从现有机器阅读理解相关文献中归纳总结出常用的表示方法,当然这些表示方法不仅仅局限于阅读理解问题,也经常见于NLP其他子领域中。

图4.文档表示方法:模型一

首先,对于机器阅读理解中的文章来说,有两种常见的文章内容表达方式。最常见的一种即是将一篇文章看成有序的单词流序列(参考图4的模型一),在这个有序序列上使用RNN来对文章进行建模表达,每个单词Dt对应RNN序列中的一个时间步t的输入,RNN的隐层状态Ht代表融合了Dt本身词义以及其上下文语义的语言编码。这种表示方法并不对文章整体语义进行编码,而是对每个单词及其上下文语义进行编码,在实际使用的时候是使用每个单词的RNN隐层状态Ht来进行相关计算。至于具体的RNN模型,常见的有标准RNN、LSTM、GRU及其对应的双向版本等。对于机器阅读理解来说双向RNN是最常用的表示方法,一般每个单词的语义表示由正向RNN隐层状态和反向RNN隐层状态拼接来表示,即:

模型一往往在机器阅读理解系统的原始输入部分对文章进行表征,因为对于很多阅读理解任务来说,本质上是从文章中推导出某个概率最大的单词作为问题的答案,所以对文章以单词的形式来表征非常自然。

另外一种常见的文章内容表达方式则是从每个单词的语义表达推导出文章整体的Word Embedding表达,这种形式往往是在对问题和文章进行推理的内部过程中使用的表达方式。典型的表达过程如图5所示的模型二所示。

图5. 文档表示方法:模型二

模型二的含义是:首先类似于模型一,用双向RNN来对每个单词及其上下文进行语义表征,形成隐层状态表示Ht,然后对于Ht向量的每一维数值,乘以某个系数,这个系数代表了单词对于整个文章最终语义表达的重要程度,将每个单词的系数调整后的隐层状态Ht累加即可得到文章的Word Embedding语义表达。而每个单词的权重系数通常用Attention计算机制来计算获得,也有不使用权重系数直接累加的方式,这等价于每个单词的权重系数都是1的情形,所以可以看作加权平均方法的特殊版本。以公式表达的话,文章的语义表达公式如下:

对于机器阅读理解中的问题来说,有三种常见的语义表达方式。如果将查询看作一种特殊的文章的话,很明显文章的语义表达方式同样可以用来表征问题的语义,也就是类似于文档表示方法的模型一和模型二,除此外,还有另外一种不同的表达方式。问题的表示方法模型一如图6所示,模型二如图7所示,其代表的含义与文章表征方式相似,所以此处不赘述。

图6.问题表示方式:模型一

图7.问题表示方法:模型二

问题表示方法的另外一种表示如图8所示,我们可以称之为模型三。

图8.问题表示方法:模型三

模型三也是在模型一的基础之上的改进模型,也是NLP任务中表达句子语义的最常见的表达方式。首先类似于模型一,使用双向RNN来表征每个单词及其上下文的语义信息。对于正向RNN来说,其尾部单词(句尾词)RNN隐层节点代表了融合了整个句子语义的信息;而反向RNN的头部单词(句首词)则逆向融合了整个句子的语义信息,将这两个时刻RNN节点的隐层状态拼接起来则可以表征问题的整体语义:

理论上模型三也可以用来表征文章的语义信息,但是一般不会这么用,主要原因是文章往往都比较长,RNN对于太长的内容表征能力不足,所以类似模型三的方法会存在大量的信息丢失,而“问题”一般来说都是比较短的一句话,所以用模型三表征是比较合适的。

以上介绍的几个模型是在机器阅读理解领域里常用的表征文章和问题的表示方法。下面我们从机器阅读理解神经网络结构的角度来进行常用模型的介绍。

扫一扫关注微信号:“布洛卡区” ,深度学习在自然语言处理等智能应用的技术研讨与科普公众号

时间: 2024-07-29 13:18:38

机器阅读理解中文章和问题的深度学习表示方法的相关文章

平安金融壹账通获机器阅读理解顶级赛事(SQuAD)世界第一

平安金融壹账通又有重大突破!继在人类情绪理解竞赛多次登顶之后, 平安金融壹账通GammaLab又在另一项国际顶级赛事上斩获第一.近日,在由斯坦福大学发起的机器阅读理解竞赛(Stanford Question Answering Dataset,SQuAD)中,平安金融壹账通以领先的技术脱颖而出,位列榜单第一位. SQuAD被誉为自然语言处理领域金字塔尖的比赛,旨在促进智能搜索引擎的发展.该赛事吸引了来自谷歌.微软亚研院.阿里达摩院.科大讯飞.IBM以及复旦大学等最顶尖的企业及学校的激烈角逐.平安

AI在汽车中的应用:实用深度学习

https://mp.weixin.qq.com/s/NIza8E5clC18eMF_4GMwDw 深度学习的"深度"层面源于输入层和输出层之间实现的隐含层数目,隐含层利用数学方法处理(筛选/卷积)各层之间的数据,从而得出最终结果.在视觉系统中,深度(vs.宽度)网络倾向于利用已识别的特征,通过构建更深的网络最终来实现更通用的识别.这些多层的优点是各种抽象层次的学习特征. 在未来的某个时候,人们必定能够相对自如地运用人工智能,安全地驾车出行.这个时刻何时到来我无法预见:但我相信,彼时&

亲爱的,你已经连阅读理解都做不过AI了

提起阅读理解这四个字,你会想到什么? 被四六级雅思托福支配的恐惧?语文试卷上连原作者都搞不懂的选择题? 不管哪种答案,肯定都逃不出一个规律:进行阅读理解这项有益身心运动的主体,必然是跟你我一样的人类. 毕竟嘛,这东西堪称考试中最费脑筋,也最考验综合能力的一个环节.所以你的英语老师一定说过这样一句话:得阅读理解者得天下. 然而,可是,但是,如果告诉你今天得这个天下的已经不再是人类,而是AI了,你会怎么想?可事实就是这样,1月11日,斯坦福大学著名的机器阅读理解赛事SQuAD刷新了全球排名,令人惊奇

face recognition[翻译][深度学习理解人脸]

本文译自<Deep learning for understanding faces: Machines may be just as good, or better, than humans>.为了方便,文中论文索引位置保持不变,方便直接去原文中找参考文献. 近些年深度卷积神经网络的发展将各种目标检测和识别问题大大的向前推进了不少.这同时也得益于大量的标注数据集和GPU的使用,这些方面的发展使得在无限制的图片和视频中理解人脸,自动执行诸如人脸检测,姿态估计,关键点定位和人脸识别成为了可能.本

深度学习在图像识别中的研究进展与展望

深度学习在图像识别中的研究进展与展望 深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域都取得了巨大成功.本文将重点介绍深度学习在物体识别.物体检测.视频分析的最新研究进展,并探讨其发展趋势. 1.深度学习发展历史的回顾 现在的深度学习模型属于神经网络.神经网络的历史可以追溯到上世纪四十年代,曾经在八九十年代流行.神经网络试图通过大脑认知的机理,解决各种机器学习的问题.1986年Rumelhart.Hinton和Will

图像识别中的深度学习 转

转:http://mp.weixin.qq.com/s?__biz=MzAwNDExMTQwNQ==&mid=209152042&idx=1&sn=fa0053e66cad3d2f7b107479014d4478#rd#opennewwindow 1.深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域的应用取得了巨大成功.现有的深度学习模型属于神经网络.神经网络的起源可追溯到20世纪40年代,曾经

【王晓刚】深度学习在图像识别中的研究进展与展望

深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域都取得了巨大成功.本文将重点介绍深度学习在物体识别.物体检测.视频分析的最新研究进展,并探讨其发展趋势. 1. 深度学习发展历史的回顾 现有的深度学习模型属于神经网络.神经网络的历史可追述到上世纪四十年代,曾经在八九十年代流行.神经网络试图通过模拟大脑认知的机理,解决各种机器学习的问题.1986 年Rumelhart,Hinton 和Williams 在<自然>发表了著

基于C#的机器学习--c# .NET中直观的深度学习

在本章中,将会学到: l  如何使用Kelp.Net来执行自己的测试 l  如何编写测试 l  如何对函数进行基准测试 Kelp.Net是一个用c#编写的深度学习库.由于能够将函数链到函数堆栈中,它在一个非常灵活和直观的平台中提供了惊人的功能.它还充分利用OpenCL语言平台,在支持cpu和gpu的设备上实现无缝操作.深度学习是一个非常强大的工具,对Caffe和Chainer模型加载的本机支持使这个平台更加强大.您将看到,只需几行代码就可以创建一个100万个隐藏层的深度学习网络. Kelp.Ne

深度学习大规模MIMO中的功率分配

摘要-本文使用深度学习的方法在大规模MIMO网络的下行链路中执行max-min和max-prod功率分配.更确切地说,与传统的面向优化的方法相比,训练深度神经网络来学习用户设备(UE)的位置和最优功率分配策略之间的映射,然后用于预测新的UE集合的功率分配曲线?与传统的优化定向方法相比,使用深度学习的方法显著提高了功率分配的复杂性-性能折衷?特别地,所提出的方法不需要计算任何统计平均值,而是需要使用标准方法来计算,并且能够保证接近最优的性能. 1 引言 大规模MIMO是指一种无线网络技术,其中基站