语音语义的深度学习

深度学习系列 | 诺亚面向语音语义的深度学习研究进展

编者:本文来自华为诺亚方舟实验室资深专家刘晓华在携程技术中心主办的深度学习Meetup中的主题演讲,介绍了华为诺亚面向语音语义的深度学习进展。关注“携程技术中心”微信公号(ctriptech),可获知更多技术分享信息哦。

本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验室最近两年内和深度学习相关的研究成果,并探讨了深度学习的未来趋势。

一、深度学习的近十年进展

深度学习为什么现在这么火?大数据,算法突破和计算能力。算法上有什么样的突破?第一点,对多层神经网络做预训练。第二点,大量标注数据驱动的监督学习和防过拟合技术的结合,例如drop out。第三点,注意力模型。特别是2012年来,深度学习在语音、图片、视频识别,包括自然语言处理方面取得重大突破等。

语音识别方面:基于深度神经网络的声音模型替隐马尔可夫框架下的基于混合高斯分布的升学模型,使语音识别取得了突破性进展。目前完全融合了声学模型、语言模型和声学词典的基于深度学习的端到端的语音识别系统也开始出现,并有可能演进为下一代的语音识别系统。

图像识别:2011年,基于深度卷积神经网络的图像识别系统在ImageNet数据集上取得极大成功,并开始有成功的商业化应用。

自然语言处理:自2014年始,深度学习在语法分析、机器翻译、对话等领域都取得了一系列重要成果。

符号人工智能:深度学习开始进入知识表达和推理等传统人工智能的领域,并取得了初步成功。

控制/强化学习:深度学习和强化学习结合催生了深度强化学习技术,该技术在控制领域,如游戏操作和机器人的控制的端到端学习(end-to-end learning),都有了令人瞩目的成功。 

二、诺亚语音语义方面深度学习相关研究

华为诺亚方舟实验室已经成为中国在深度自然语言处理研究(deep learning for NLP)领域最好的实验室之一。

深度语义匹配:对待匹配的两个目标对象的各个方面的匹配关系用深度神经网络进行建模。应用之一是基于自然语言的图片搜索:采用文本和图像深度匹配模型做手机上的图像搜索。



自然语言对话:我们提出了第一个基于序列编码-解码算法的神经网络的对话模型。它能够理解你所说并产生合适的应答”。目前这一成果被业界广泛引用。

机器翻译:传统的基于统计的机器翻译,是从大量的平行语料库中学习大量的翻译规则,然后基于翻译规则来做翻译。它的翻译结果会比较忠实原文,但往往比较生硬。其特点可以用信而不达来概括。2014年基于基于编码-解码算法的端-到-端的翻译系统被提出来了。它先会把源语言句子做语义编码,相当于先理解原句,然后根据源端的语义编码再生成目标句子。为了生成更好的目标句子,它会引入一个“注意力模型“,这个注意力模型会建议生成下一个目标翻译词时主要考虑源句端的哪些词。我们最近做的一个有意思的工作是把“覆盖率模型“这个传统统计机器翻译中常用的技术叠加到了”注意力模型“上,使得在生成下一个目标翻译词的时候,把关注重点能更多的放到那些还没有充分翻译的源句端的词上,从而一定程度缓解过译和漏译问题。这一成果已经在今年国际计算语言学协会大会(ACL 2016)上发表了。

问答系统:我们的问答系统整体基于端到端的编码解码框架,但把知识库也融合进来了,是业界第一个基于深度学习的基于自然语言的问答系统。在生成答案的下一个目标词的时候,它会判断是否把注意力放到知识库,以及知识库中哪个条目,并从中选出答案作为下一个目标词。

基于自然语言的推理:这一块相关研究我们刚刚起步,我们当前的方法也非常“朴素”。我们目前研究的聚焦在下面的场景:给定若干个事实,以及问题,输出答案。限定答案是某个分类标签,我们把这个任务转化为一个分类问题。

三、深度学习的未来趋势

深度学习还能有哪些突破?1.. 自然语言处理,人看起来简单自然的符号,能否与传统人工智能融合。2. 能否将举一反三的能力融入到深度学习中?3,无监督学习是否能有所突破。

更加灵活的表示方式。代表性的工作包括神经图灵机(Neural Turing Machine)、记忆网络(memory network), 以及诺亚最近的Neural Transformation Machine和Neural Reasoner。

更加复杂的端到端学习系统。不再拘泥于一个简单的模型,而是多个不同功能的神经网络耦合而成的系统,这个系统可以和现实世界完成对接和交互,能够接受延迟的和曲折的监督信号(和增强学习的结合),是“可微的”,或者至少是可以被优化的(譬如基于抽样的优化)。

和传统人工智能的融合。试图去解决传统符号人工智能任务,推理、知识表达等,可以将符号人工智能的强大的逻辑能力和神经网络的灵活性结合。

和知识库的结合。在对话等需要真实世界知识的场景,我们需要建立一个可以高效动态的访问知识库的神经网络系统。大量需要解决的问题:知识库的表示问题,访问的方式和效率问题,End-to-end 训练的问题,和神经网络内部的“知识”的融合问题。

受教式人工智能:数据+知识驱动的深度学习。面向特定场景,接受教育,自我成长,个性化的系统。

(本文由携程技术中心童兰利整理)

演讲PPT下载:

诺亚面向语音语义的深度学习研究进展

深度学习Meetup系列:

深度学习在携程攻略社区的应用

深度学习在搜狗无线搜索广告中的应用

知识库上的问答系统:实体、文本及系统观点

用户在线广告点击行为预测的深度学习模型

知识图谱中的推理技术及其在高考机器人中的应用

诺亚面向语音语义的深度学习研究进展

时间: 2024-10-28 10:42:10

语音语义的深度学习的相关文章

基于深度学习的图像语义编辑

深度学习在图像分类.物体检测.图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征.基于此,衍生出了很多有意思的图像应用. 为了提升本文的可读性,我们先来看几个效果图. 图1. 图像风格转换 图2. 图像修复,左上图为原始图,右下图为基于深度学习的图像 图3. 换脸,左图为原图,中图为基于深度学习的算法,右图为使用普通图像编辑软件的效果 图4. 图像超清化效果图,从左到右,第一张为低清图像三次插值结果,第二张残差网络的效果,第三张为使用对抗神经网络后的结果,第四张为原图.

基于深度学习的图像语义分割技术概述之背景与深度网络架构

图像语义分割正在逐渐成为计算机视觉及机器学习研究人员的研究热点.大量应用需要精确.高效的分割机制,如:自动驾驶.室内导航.及虚拟/增强现实系统.这种需求与机器视觉方面的深度学习领域的目标一致,包括语义分割或场景理解.本文对多种应用领域语义分割的深度学习方法进行概述.首先,我们给出本领域的术语及主要背景知识.其次,介绍主要的数据集及难点,以帮助研究人员找到合适的数据集和研究目标.之后,概述现有方法,及其贡献.最后,给出提及方法的量化标准及其基于的数据集,接着是对于结果的讨论.最终,对于基于深度学习

基于深度学习的图像语义分割方法综述

近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类.梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实

深度学习高分辨率遥感影像语义分割【转】

原文link: https://www.cnblogs.com/wzp-749195/p/11114624.html 深度学习大家都知道,在计算机视觉领域取得了很大的成功,在遥感影像自动解译方面,同样带来了快速的发展,我在遥感影像自动解译领域,也做了一些微薄的工作,发表几篇论文,我一直关注遥感影像自动解译领域, 在北京出差的这段时间,终于可以沉下心来,好好研究下深度学习,目前在语义分割领域,也有部分心得,在此同大家分享,权当是互相学习.本篇博文就是论述现有的state-of-art方法在遥感影像

秦涛:深度学习的五个挑战和其解决方案

深度学习的五个挑战和其解决方案 编者按:日前,微软亚洲研究院主管研究员秦涛博士受邀作客钛媒体,分享他对深度学习挑战和解决方案的思考 ,本文为秦涛博士在此次分享的实录整理. 大家好,我是微软亚洲研究院的秦涛,今天我将分享我们组对深度学习这个领域的一些思考,以及我们最近的一些研究工作.欢迎大家一起交流讨论. 先介绍一下我所在的机器学习组.微软亚洲研究院机器学习组研究的重点是机器学习,包含机器学习的各个主要方向,从底层的深度学习分布式机器学习平台(AI的Infrastructure)到中层的深度学习.

用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也

深度学习与中文短文本分析总结与梳理

1.绪论 过去几年,深度神经网络在模式识别中占绝对主流.它们在许多计算机视觉任务中完爆之前的顶尖算法.在语音识别上也有这个趋势了.而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,但没有开源)本文暂且梳理一下,尝试围绕深度学习和 短文本处理的方方面面就最简单的概念进行一次梳理,并且试图思考一个问题: 深度学习处理中文短文本的最终效果是什么? 我思考后的答案是: 答:是一种模型,可以无需任何

斯坦福大学深度学习与自然语言处理第一讲:引言

斯坦福大学在三月份开设了一门"深度学习与自然语言处理"的课程:CS224d: Deep Learning for Natural Language Processing ,授课老师是青年才俊Richard Socher,他本人是德国人,大学期间涉足自然语言处理,在德国读研时又专攻计算机视觉,之后在斯坦福大学攻读博士学位,拜师NLP领域的巨牛 Chris Manning和Deep Learning 领域的巨牛 Andrew Ng ,其博士论文是< Recursive Deep Le

Deep Learning(深度学习)学习笔记整理系列 | @Get社区

body { font-family: Microsoft YaHei UI,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5; } html, body { } h1 { font-size:1.5em; font-weight:bold; } h2 { font-size:1.4em; font-weight:bo