从研究到应用:腾讯AI Lab的自然语言理解和生成

3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。

自然语言的理解

自然语言理解的目标是使得机器能够像人一样进行阅读。机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑。因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取(Information Extraction)从文本信息中找到有用的信息,摒弃无用的噪音。但这两个研究方向仅仅是在字面意思上的理解,想要深入了解文字背后的含义还需要用到更复杂的语义分析技术,比如在语文考试中经常出现的题目:“这句话表达了作者怎样的思想感情”,而回答这个问题就需要用到语义分析技术的一个子方向——情感分析技术。李菁详细阐述了表征学习和信息抽取这两种技术。

表征学习:腾讯AI Lab在各个颗粒度都有研究

李菁表示,从词、词组、到句子、到篇章,腾讯AI Lab在各个颗粒度的表征学习都有研究,并重点介绍了词级别的表征,也就是词嵌入(wordembedding)。词嵌入的目标是把词映射到一个高维的空间当中,使得意义相近的词在空间上的距离比较近。词嵌入目前很多深度学习模型所依赖的语料,直接作为用作输入层的特征表示。在英语上,词嵌入有很多很好的语料,比如 word2vec,但在中文上这个方面的语料目前还比较欠缺。因此腾讯AI Lab训练了一个非常大规模的中文的词嵌入,这个语料不管从覆盖度、准确率还是对于新词的衡量方面,都达到了行业领先的水平。并且无论是词的相似度还是它应用到词性标注上的性能,这个语料都表现出其优越性。

信息抽取:关键词抽取被赋予了新的生命

说到信息抽取,李菁通过关键词抽取的例子介绍了他们的研究成果。关键词抽取是从文本当中抽取一些重要的成分,一般是词或者词组的形式。关键词抽取是一个非常古老的问题,如今各种各样的AI技术应用场景却赋予它新的生命。比如在时下非常流行的自动问答系统当中,当用户输入这样一个问题:“刚开始玩王者荣耀,花木兰这个英雄怎么样”,如果能正确定位到花木兰这个关键词,就可以搜索到相关信息,比如“王者荣耀推出花木兰,输出给力”、“新英雄花木兰让女性英雄不再脆皮”以及“不是很喜欢花木兰,技能太复杂。”,通过融合这些返回的结果就可以得到用户想要的答案,比如“输出给力,不脆皮,但是技能复杂”。

图1考虑上下文的关键词抽取模型

现在学术界在关键词抽取上的研究进展并不是完美的,它也有欠缺考虑的地方,表现为目前针对关键词抽取的研究点只考虑了待抽取的文本,而忽略了它的上下文信息,比如在抽取新闻的关键词的时候,往往只关注新闻本身,而忽略了和新闻有关的评论。因为目标文本中的重要信息往往在上下文中会被多次提及,如果能很好地编码上下文中的重要信息,将对定位目标文本的关键词位置起到重要的作用。李菁在当天还介绍了AI Lab在关键词抽取上的提出的模型,如图 1所示,模型的左侧的上下文编码器用于抽象上下文中的表示,右侧用于学习目标文本的特征,结合二者来共同发现目标文本中的关键词位置。

自然语言的生成:让AI写春联

自然语言的生成技术关注的是如何让机器能够像人一样进行写作,这就赋予了机器的创作能力。自动聊天是腾讯AI Lab在自然语言生成方面的主要研究方向,AI Lab可以做到让机器生成诸如古风、浪漫风格等等各种各样的回复。AI Lab生成应用亦在金融方面有所涉猎,比如针对股票的自动问答系统,针对财报生成摘要,让大众能够很快地理解财报中的重要信息。另外还有针对中文古典文化的生成成果,比如诗歌和对联的生成。接下来李菁以对联生成为例,介绍了AI Lab在自然语言生成方面的应用。

图 2 腾讯AI春联生成以“腾讯”为藏头的春联

图 2是AI Lab在2018年春节期间推出的腾讯AI 春联产品,由腾讯AI Lab和腾讯新闻联手出品。用户只需输入2-4个汉字,系统就会取后面2个汉字,第一个汉字生成上联,第二个汉字生成下联,比如输入“腾讯”就会生成如图 2中所示的对联。李菁谈到,这个产品自问世以来就受到了大众的广泛欢迎,数据显示有超过380万的用户使用了该产品,页面访问量达到了760万,春联生成次数超过4千万次,人均生成10次春联。另外,由于腾讯AI春联带来的巨大影响力,各大媒体也争相报道这个产品,除了中国大陆的媒体之外,还有来自中国台湾和香港的媒体也争相报道这个产品。

李菁还展示了腾讯AI春联产品的工作原理。首先要根据用户给定的第一个字生成上联,在生成上联的每个字的时候需要根据之前所挥洒出的意境,因此产品采用了语言模型的方法。在从上联生成下联的时候,采用了稍微不一样的模型,因为考虑到对仗,系统使用了带有注意机制的序列到序列模型,生成下联每一个字的时候都找到上联和它对应的字去落笔。通过这两个模型,一副对仗工整、意境深远的春联就生成了。

最后,李菁表示相信随着AI技术的发展,在不远的将来,机器能够被赋予像人一样阅读和写作的能力。未来也一定会共同见证图灵梦想成真的那一天!

题图引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/

原文地址:http://blog.51cto.com/13591395/2096091

时间: 2024-10-11 05:05:49

从研究到应用:腾讯AI Lab的自然语言理解和生成的相关文章

腾讯 AI Lab 计算机视觉中心人脸 & OCR团队近期成果介绍(3)

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:周景超 在上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享. 1 人脸进展 人脸是最重要的视觉信息之一.以貌识人.以貌取人是人的本性,也是最自然.最常用的身份确认和交互方式之一.互联网和移动互联网上每天上传和传播的天文数字级别的照片中有很大一部分都是和人脸相关的(比如国际知名互联网公司Facebook每天都有亿级以上的海量人脸照片和视频上传),因此人脸检测与识别技术在学术界和工业界都备受关注

腾讯技术工程 |腾讯AI Lab刷新人脸识别与检测两大测评国际记录,技术日调用超六亿

2017年12月18日,深圳 - 腾讯AI Lab研发的Face R-FCN和FaceCNN算法分别在国际最大.最难的人脸检测平台WIDER FACE与最热门权威的人脸识别平台MegaFace多项评测指标中荣膺榜首,刷新行业纪录,展现其在计算机视觉领域中,特别是人脸技术上的强劲实力. 研究上,目前腾讯AI Lab已通过arXiv平台发表论文公开人脸检测算法部分技术细节,促进企业与学界"共享AI"研究成果:应用上,该人脸技术已接入腾讯互联网+公共服务平台等多个应用场景,每日技术调用量超六

腾讯技术工程 | 腾讯AI Lab 现场陈述论文:使众包配对排名聚合信息最大化的 HodgeRan

前言:腾讯AI Lab共有12篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议AAAI 2018.腾讯技术工程官方号编译整理了现场陈述论文<使众包配对排名聚合信息最大化的 HodgeRank>(HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation),该论文被AAAI 2018录用为现场陈述报告(Oral Presentation),由中国科学院信息工程研究所.腾讯AI

腾讯副总裁姚星:腾讯AI Lab将致力打造通往AGI之路

背景:3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗.游戏.多媒体内容.人机交互等四大领域的跨界研究与应用.全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流. 今天,腾讯副总裁姚星在腾讯AI Lab主办的第二届学术论坛上表示,AI Lab未来将致力于发展通用人工智能(AGI, Artificial General Intelligence),通过攻克通用人工智能这一难题,使AI技术和应用能够克服目前仍处于早期阶段的各种局限. 姚星表示,当前人工智能的发

CVPR 2018 | 腾讯AI Lab入选21篇论文详解

近十年来在国际计算机视觉领域最具影响力.研究内容最全面的顶级学术会议CVPR,近日揭晓2018年收录论文名单,腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论. 去年CVPR的论文录取率为29%,腾讯AI Lab 共有6篇论文入选,点击 这里可以回顾.2017年,腾讯 AI Lab共有100多篇论文发表在AI顶级会议上,包括ICML(4篇).ACL(3篇).NIPS(8篇)等. 我们还坚持与学界.企业界和行业「共享AI+未来」,已与美国麻省理工大学.英国

AI+游戏:高效利用样本的强化学习 | 腾讯AI Lab学术论坛演讲

3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗.游戏.多媒体内容.人机交互等四大领域的跨界研究与应用.全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流.腾讯AI Lab还宣布了2018三大核心战略,以及同顶级研究与出版机构自然科研的战略合作(点击 这里 查看详情). 腾讯AI Lab希望将论坛打造为一个具有国际影响力的顶级学术平台,推动前沿.原创.开放的研究与应用探讨与交流,让企业.行业和学界「共享AI+未来」. 彭健 美国伊利诺伊大学厄巴纳-香槟分校

ECCV 2018 | UBC&amp;腾讯AI Lab提出首个模块化GAN架构,搞定任意图像PS组合

通常的图像转换模型(如 StarGAN.CycleGAN.IcGAN)无法实现同时训练,不同的转换配对也不能组合.在本文中,英属哥伦比亚大学(UBC)与腾讯 AI Lab 共同提出了一种新型的模块化多域生成对抗网络架构--ModularGAN,生成的结果优于以上三种基线结果.该架构由几个可重复利用和可组合的模块组成.不同的模块可以在测试时轻松组合,以便在不同的域中高效地生成/转换图像.研究者称,这是首个模块化的 GAN 架构. 据了解,腾讯 AI Lab 共有 19 篇论文入选 ECCV 201

如何做研究?(From: MIT AI LAB)

简评: 这是一篇关于如何做研究的经验总结,全面阐述了研究过程中可能遇到的诸多问题,并给出了切实可行的建议!对于刚进入研究生阶段的研究生来说,我觉得可以为他们未来的研究生活提供很多有益的指导! 摘要: 本文的主旨是解释如何做研究.我们提供的这些建议,对做研究本身(阅读.写作和程序设计),理解研究过程以及开始热爱研究(方法论.选题.选导师和情感因素),都是极 具价值的. 本文背景: 麻省理工学院 人工智能实验室 AI Working Paper 316 1988年10月来自MIT人工智能实验室:如何

快手AI lab interv

快手AI lab 月臻 最近想出去实,快手是第一个发来的,所以就去了下. 第一 1. 介绍下NMS,并写出NMS的伪代码,和计算IOU的函数. 先介绍了一下NMS的做法,然后伪代码一时没写出来,计算IOU的函数没完全写对.当头一凉,其实之前在知乎上看到过说面试要准备的,所以大家快去写一遍. 2. 编写一个程序,找到两个单链表相交的起始节点. 这道题比较简单了,我先是说了一种让单链表的尾部指向一个链表的头部,这个问题就变成了求链表中环的起始点位置的问题了,这样用快慢指针就可以轻松做出来.但其实还有