语音语义的深度学习

深度学习系列 | 诺亚面向语音语义的深度学习研究进展

编者：本文来自华为诺亚方舟实验室资深专家刘晓华在携程技术中心主办的深度学习Meetup中的主题演讲，介绍了华为诺亚面向语音语义的深度学习进展。关注“携程技术中心”微信公号（ctriptech），可获知更多技术分享信息哦。

本次演讲简要回顾了深度学习近十年进展，重点介绍华为诺亚方舟实验室最近两年内和深度学习相关的研究成果，并探讨了深度学习的未来趋势。

一、深度学习的近十年进展

深度学习为什么现在这么火？大数据，算法突破和计算能力。算法上有什么样的突破？第一点，对多层神经网络做预训练。第二点，大量标注数据驱动的监督学习和防过拟合技术的结合，例如drop out。第三点，注意力模型。特别是2012年来，深度学习在语音、图片、视频识别，包括自然语言处理方面取得重大突破等。

语音识别方面：基于深度神经网络的声音模型替隐马尔可夫框架下的基于混合高斯分布的升学模型，使语音识别取得了突破性进展。目前完全融合了声学模型、语言模型和声学词典的基于深度学习的端到端的语音识别系统也开始出现，并有可能演进为下一代的语音识别系统。

图像识别：2011年，基于深度卷积神经网络的图像识别系统在ImageNet数据集上取得极大成功，并开始有成功的商业化应用。

自然语言处理：自2014年始，深度学习在语法分析、机器翻译、对话等领域都取得了一系列重要成果。

符号人工智能：深度学习开始进入知识表达和推理等传统人工智能的领域，并取得了初步成功。

控制/强化学习：深度学习和强化学习结合催生了深度强化学习技术，该技术在控制领域，如游戏操作和机器人的控制的端到端学习（end-to-end learning），都有了令人瞩目的成功。

二、诺亚语音语义方面深度学习相关研究

华为诺亚方舟实验室已经成为中国在深度自然语言处理研究（deep learning for NLP）领域最好的实验室之一。

深度语义匹配：对待匹配的两个目标对象的各个方面的匹配关系用深度神经网络进行建模。应用之一是基于自然语言的图片搜索：采用文本和图像深度匹配模型做手机上的图像搜索。

自然语言对话：我们提出了第一个基于序列编码-解码算法的神经网络的对话模型。它能够理解你所说并产生合适的应答”。目前这一成果被业界广泛引用。

机器翻译：传统的基于统计的机器翻译，是从大量的平行语料库中学习大量的翻译规则，然后基于翻译规则来做翻译。它的翻译结果会比较忠实原文，但往往比较生硬。其特点可以用信而不达来概括。2014年基于基于编码-解码算法的端-到-端的翻译系统被提出来了。它先会把源语言句子做语义编码，相当于先理解原句，然后根据源端的语义编码再生成目标句子。为了生成更好的目标句子，它会引入一个“注意力模型“，这个注意力模型会建议生成下一个目标翻译词时主要考虑源句端的哪些词。我们最近做的一个有意思的工作是把“覆盖率模型“这个传统统计机器翻译中常用的技术叠加到了”注意力模型“上，使得在生成下一个目标翻译词的时候，把关注重点能更多的放到那些还没有充分翻译的源句端的词上，从而一定程度缓解过译和漏译问题。这一成果已经在今年国际计算语言学协会大会（ACL 2016）上发表了。

问答系统：我们的问答系统整体基于端到端的编码解码框架，但把知识库也融合进来了，是业界第一个基于深度学习的基于自然语言的问答系统。在生成答案的下一个目标词的时候，它会判断是否把注意力放到知识库，以及知识库中哪个条目，并从中选出答案作为下一个目标词。

基于自然语言的推理：这一块相关研究我们刚刚起步，我们当前的方法也非常“朴素”。我们目前研究的聚焦在下面的场景：给定若干个事实，以及问题，输出答案。限定答案是某个分类标签，我们把这个任务转化为一个分类问题。

三、深度学习的未来趋势

深度学习还能有哪些突破？1.. 自然语言处理，人看起来简单自然的符号，能否与传统人工智能融合。2. 能否将举一反三的能力融入到深度学习中？3，无监督学习是否能有所突破。

更加灵活的表示方式。代表性的工作包括神经图灵机（Neural Turing Machine）、记忆网络（memory network）, 以及诺亚最近的Neural Transformation Machine和Neural Reasoner。

更加复杂的端到端学习系统。不再拘泥于一个简单的模型，而是多个不同功能的神经网络耦合而成的系统，这个系统可以和现实世界完成对接和交互,能够接受延迟的和曲折的监督信号（和增强学习的结合），是“可微的”，或者至少是可以被优化的（譬如基于抽样的优化）。

和传统人工智能的融合。试图去解决传统符号人工智能任务，推理、知识表达等，可以将符号人工智能的强大的逻辑能力和神经网络的灵活性结合。

和知识库的结合。在对话等需要真实世界知识的场景，我们需要建立一个可以高效动态的访问知识库的神经网络系统。大量需要解决的问题：知识库的表示问题，访问的方式和效率问题，End-to-end 训练的问题，和神经网络内部的“知识”的融合问题。

受教式人工智能：数据+知识驱动的深度学习。面向特定场景，接受教育，自我成长，个性化的系统。

（本文由携程技术中心童兰利整理）

演讲PPT下载：

深度学习Meetup系列：

知识图谱中的推理技术及其在高考机器人中的应用

诺亚面向语音语义的深度学习研究进展

时间： 2024-10-28 10:42:10

语音语义的深度学习

深度学习系列 | 诺亚面向语音语义的深度学习研究进展

语音语义的深度学习的相关文章

基于深度学习的图像语义编辑

基于深度学习的图像语义分割技术概述之背景与深度网络架构

基于深度学习的图像语义分割方法综述

深度学习高分辨率遥感影像语义分割【转】

秦涛：深度学习的五个挑战和其解决方案

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

深度学习与中文短文本分析总结与梳理

斯坦福大学深度学习与自然语言处理第一讲：引言

Deep Learning（深度学习）学习笔记整理系列 | @Get社区