Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT

Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)

Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。

下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录,由新智元整理翻译,如果PPT看不过瘾,你还可以复制链接直接观看视频:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw

在新智元公众号后台回复“0516”可下载全部46张PPT。

原标题:自然语言词义中的深度学习

从ML到AI的三个关键要素:

1.  许多&许多的数据

2.  非常灵活的模型

3.  强大的先验知识,能打破“维度的诅咒”

突破“维度的诅咒”

  • 我们需要在机器学习模型中创建组合词

    正如人类语言会分析组合词,为组合词的概念赋予表示和意义

  • 对组合词意挖掘,在指代的能力上获得指数级的增长

    分布式表示/嵌入:特征学习

    深度架构:多层次的特征学习

  • 先验知识(Prior):组合性在有效地描述我们所处的世界时非常有用

深度学习理论的进展

  • 分布式表示的指数级优势
  • 深度的指数级优势
  • 迷思:非凸性 ∉ 局部最小值

分布式表示的指数级优势

比起最近邻法或分类法的模型,学习一系列不相互排斥的特征,在数据上更有效。


相关推荐论文


深度的指数级优势

迷思正在被打破:神经网络中的局部最小值

 

凸性并不是必须的

推荐论文

鞍点

  • 局部最小值掌控着低维度,但是鞍点掌控高维度
  • 大多数的局部最小值都很接近底部(全局最小值误差)

为什么N-gram 在泛化上表现很差

神经语言模型

下一个挑战:词序中丰富的语义表示

  • 捕捉词义上令人印象深刻的进展
  • 更容易的学习:非参数的(查表)
  • 绘制序列来实现更加丰富和完整的指称进行优化的问题
  • 好的测试案例:自动编码框架的机器翻译

深度学习中的聚焦(Attention)机制

考虑一个输入(或者中间的)序列或者图像

考虑一个高层次的指称,通过设置权重或者每个输入位置的概率,正如MLP中所产生的那样,运用到每一个位置。

聚焦机制在翻译、语音、图像、视频和存储中的应用

端对端的机器翻译

  • 传统的机器翻译:通过相似度的最大化对若干个模型进行独立地训练,在N型图中获的顶部、底部获得逻辑回归。
  • 神经语言模型已经被证明在普遍化的能力上优于N型图模型。
  • 为什么不训练一个神经翻译模型,端对端地评估P(目标句子|源句子)

2014:神经机器翻译获得突破的一年

 

主要论文

早期的工作

编码-解码框架

  • 中间的意义表示=普遍的表示
  • 编码:从词的排列到句子代表
  • 解码:从代表到词序的分布

输入侧的双向RNN

 

模仿Alex Graves在手写体上的工作

聚焦:相关论文和旧论文

软聚焦VS随机硬聚焦

聚焦为基础的神经机器翻译

预测对齐

法语和德语不同的对齐

在纯AE模型上的提升

 

  • RNNenc:对整个句子进行编码
  • RNNsearch:预测平面图
  • BLEU 在全部的测试集中赋分(包括UNK)

周期性网络和聚焦机制下的端对端机器翻译

 

从零开始,一年后的现状:

英语到德语

从图像到文字:聚焦模型下的字幕生成

聚焦选择部分图像,同时,生成对应描述词

说出看到的东西

展示、参加和讲述:用视觉聚焦来达到神经图像字幕生成

好的识别

坏的识别

有趣的延伸

  • 用重要性抽样近似值高效地处理大量的词汇(最小批的词=负面的例子)(Jean al, ACL’2015)
  • 多语种 NMT:共享的编码器和解码器,在语言配对中,聚焦机制是一个条件
  • 字符层次的NMT

用共享聚焦机制达成的多语言神经机器翻译

  • 每一种语言对应1 编码器+ 1解码器
  • 一个共享的聚焦模型,还有每一种语言编码和解码规定的“代表翻译函数”

用共享聚焦机制达成的多语言神经机器翻译

  • 迁移学习起了作用
  • 在大多数情况下,对定位成对的平行语料库有益

基于字符的模型

  • 在基于N型图的模型中几乎是不可能的;
  • 但是,对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的;
  • 对于词汇并没有清晰的区分或者组合线(让词汇量显示)的语言来说是有必要的;
  • 在词的规律(前缀、后缀、连接等)上进行时是有必要的;

障碍:

  • 对于RNNs:更长期的依赖性
  • 较差的容量和计算率
  • 2年前的前期实验:比起基于词汇的模型,可持续性要更差

基于字符的NMT实验

 

  • 2层的架构
  • 更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态

基于字符的NMT实验

内存访问中的聚焦模型

  • 神经图灵机器
  • 内存网络
  • 使用一个聚焦机制形式来控制对存储器的读取和写入
  • 聚焦机制在内存上输出一个softmax
  • 从效率上看,softmax必须是稀疏的(大多数情况下是0),例如,或许可以使用一个混合图表格式。

大型内存网络:长期依存的稀疏内存访问

  • 一个外部存储器中的状态,可以保存任意长的时间,直到被读取或写入
  • 忘记=消失的梯度
  • 内存=更大的状态,避免遗忘或者消失的必要

延迟不代表能更进一步

在运行的项目:知识提取

  • 学习从自然语言对事实的描述中填入记忆网络
  • 强迫神经网络理解语言
  • 从档案中提取知识,并浓缩成可使用的格式

下一个大难题:非监督式学习

最近的突破大多数都是在监督式深度学习中

非监督式学习中的真实挑战

潜在的好处:

  • 能处理海量的非标签数据
  • 针对观察的变量,回答新的问题
  • 正则化矩阵——迁移学习——领域自适应
  • 更容易优化(局部训练信号)
  • 结构性的输出
  • 对于没有特定模型或在主要模拟的RL来说很有必要

结论

深度学习理论在许多前沿地带都取得了显著的进步:为什么能更好地泛化?为什么局部最小值不是人们考虑的问题?深度无监督学习的概率解释。

聚焦机制让学习者模型更好地做选择,不管是软聚焦还硬聚焦。

深度学习理论在机器翻译和字幕生成上取得了巨大的成功。

在语音识别和视频,特别是如果我们使用深度学习理论来捕捉多样的时标时,会很有用。

深度学习理论可用于解决长期的依存问题,让一些状态持续任意长时间。



「招聘」

 

全职记者、编译和活动运营

欢迎实习生

以及人工智能翻译社志愿者

详细信息请进入公众号点击「招聘」

或发邮件至 [email protected]

时间: 2025-01-15 18:04:58

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的相关文章

软考高项2016年4月11日作业

2016年4月11日作业 一.法律法规和标准规范1.中国标准划分为哪四个层次?要求最低的是哪个? 国家标准.行业标准.地方标准和企业标准,其中要求最低的是国家标准.2.国家标准的制订程序包括哪些? 前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每五年复审一次,我国国家标准的有效期5年复审一次.4.请说明如下是什么标准?GB.GB/T.GB/Z.GJB? GB国家标准.GB/T推荐性国家标准.GB/Z国家标准

2016年4月11日作业 法律法规和标准规范

软考中高项学员:2016年4月11日作业 一.法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个? 国家标准.行业标准.地方标准.企业标准  要求最低的是国家标准 2.国家标准的制订程序包括哪些? 前期准备 .立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,国家标准管理办法中规定国家标准实施5年内要进行复审,即国家标准有效期一般为5年 4.请说明如下是什么标准?GB.GB/T.

2016年12月11日《每天听本书》:爱情数学:如何用数学找到真爱

2016年12月11日今天的每天听本书爱情数学:如何用数学找到真爱 现在为大家简要截取 今天罗辑社的每天听本书 微信群发布情况介绍 <每天听本书>,不是逐字逐句的"朗读".因为那会耗费用户更多的时间. <每天听本书>,不是对书本框架结构的"缩写".因为丢掉了细节就是丢掉了灵魂. <每天听本书>,也不是"笔记".摘抄书中的原句,脱离上下文环境,其实没有意义. <每天听本书>,是"转述&quo

软考中高项学员:2016年4月11日作业 法律法规和标准规范

软考中高项学员:2016年4月11日作业  法律法规和标准规范 1.  中国标准划分为哪四个层次?要求最低的是哪个? 国家标准.行业标准.地方标准.企业标准.最低的是国家标准. 2.  国家标准的制订程序包括哪些? 国标制订程序包括:前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段. 3.  ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,国家标准的有效期一般为5年. 4.  请说明如下是什么标准?GB.GB/T.GB/Z.GJB? G

软考中高项学员:2016年4月11日作业

一.法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个? 国家标准.行业标准.地方标准.企业标准,要求最低的是国家标准. 2.国家标准的制订程序包括哪些? 前期准备.立项.起草.征求意见.审查.批准.出版.复查和废止. 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,我国国家标准的有效期一般为5年,5年复审一次. 4.请说明如下是什么标准?GB.GB/T.GB/Z.GJB? GB强制性国家标准.GB/T推荐性国家标准.GB/Z国家标准指

2016年4月11日作业&#160;

一.法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个? 1)国家标准.2)行业标准.3)地方标准.4)企业标准. 2.国家标准的制订程序包括哪些? 前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止九个阶段. 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,我国国家标准的有效期5年复审一次. 4.请说明如下是什么标准?GB.GB/T.GB/Z.GJB? GB强制性国家标准.GB/T推荐性国家标准.GB/Z指导性国家标准.GJ

薛老师软考高项学员:2016年4月11日作业

第21章 法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个? 中国标准划分为国家标准.行业标准.地方标准和企业标准. 要求最低的是国家标准. 2.国家标准的制订程序包括哪些? 前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止. 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,我国国家标准的有效期5年复审一次. 4.请说明如下是什么标准?GB.GB/T.GB/Z.GJB? 强制性国家标准代号为GB,推荐性国家标准代号为GB/

2016年4月11日作业(法律法规、标准规范、职业道德)

一.法律法规和标准规范1.中国标准划分为哪四个层次?要求最低的是哪个?P498 答:<中华人民共和国标准化法>将标准划分为4个层次,既国家标准.行业标准.地方标准和企业标准.国家标准的要求最低.2.国家标准的制订程序包括哪些? 答:前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段.3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? 答:ISO标准每5年复审一次:国家标准实施5年内要进行复审,既国家标准有效期一般为5年.4.请说明如下是什么标准?GB.GB/T.

对话框控件--2016年12月11日

打开对话框-----OpenFileDialog 1 //打开文件对话框 2 OpenFileDialog openFile = new OpenFileDialog(); 3 openFile.Title = "请选择要打开的文件"; //对话框标题 4 openFile.Multiselect = true; //设置对话框可以多选 5 openFile.InitialDirectory = @"C:\Users\tufeiax\Desktop";//获取对话框