深度复数网络 Deep Complex Networks

转自:https://www.jiqizhixin.com/articles/7b1646c4-f9ae-4d5f-aa38-a6e5b42ec475  (如有版权问题,请联系本人)

目前绝大多数深度学习模型中的数学都是实数值的,近日,蒙特利尔大学、加拿大国家科学院-能源/材料/通信研究中心(INRS-EMT)、微软 Maluuba、Element AI 的多名研究者(其中包括 CIFAR Senior Fellow Yoshua Bengio)在 arXiv 上发布了一篇 NIPS 2017(今年 12 月在美国 Long Beach 举办)论文,提出了一种可用于复数值深度神经网络的关键组件,该团队也已经在 GitHub 上开源了相关研究代码。机器之心对本论文进行了摘要介绍。

论文:深度复数网络(Deep Complex Networks)

目前,深度学习的绝大多数构建模块、技术和架构都基于实数值的运算和表征。但是,近来在循环神经网络和其它更古老的基础理论上的分析表明复数可以有更加丰富的表征能力,也可以促进对噪声鲁棒的记忆检索机制。尽管它们在带来全新的神经架构上有引人注目的性质和潜力,但由于缺少设计这种模型所需的构建模块,复数值的深度神经网络一直处于边缘化的状态。在这项研究中,我们提供了可用于复数值深度神经网络的关键基本组件,并将它们应用到了卷积前馈网络中。更准确地说,我们依靠复数卷积,提出了可用于复数值深度神经网络的复数批规范化、复数权重初始化策略,并且我们还在端到端的训练方案中对它们进行了实验。我们表明,这样的复数值模型可以实现与其对应的实数值模型相媲美或更好的表现。我们在一些计算机视觉任务和使用 MusicNet 数据集的音乐转录任务上对深度复数模型进行了测试,实现了当前最佳的表现。

1 引言

本论文的贡献如下:

  1. 对复数批规范化(complex batch normalization)进行了形式化,详见 3.4 节;
  2. 复数权重初始化,详见 3.5 节;
  3. 在多乐器音乐转录数据集(MusicNet)上达到了当前最佳的结果,详见 4.2 节。

3 复数构建模块

在这一节,我们给出了我们研究成果的核心,为实现复数值的深度神经网络构建模块制定了数学框架。

图 1:复数卷积和残差网络实现细节

3.1 复数的表征

3.2 复数卷积

3.3 深度复数网络的深度和宽度

3.4 复数批规范化

3.5 复数权重初始化

3.6 复数卷积残差网络

4 实验结果

在这一节,我们给出了我们的模型在图像和音乐分类任务上的实验结果。首先,我们给出了我们的模型架构,然后给出了其在三个标准图像分类基准(CIFAR-10、CIFAR-100 和 SVHN)上的结果,另外还有在 MusicNet 基准上的自动音乐转录结果。

4.1 图像识别

表 1:模型架构。S1、S2 和 S3 Filters 分别是指在 stage 1、2 和 3 每一层所使用的卷积滤波器的数量。(S) 表示小网络,(L) 表示大网络。

表 2:在 CIFAR-10、CIFAR-100 和 SVHN 上的分类误差。注意 He et al. [2016] 使用了 110 层的模型

图 3:(a) 作为每次输入的实数和虚数对的 Stage 1 特征图;(b) 作为幅度和相的特征图

图 4:作为每次输入的实数和虚数对的 Stage 2 和 3 特征图

4.2 在 MusicNet 数据集上的自动音乐转录

表 3:MusicNet 实验。FS 表示采样率。Params 是参数的总数量。我们给出了平均精度(AP)指标,是指精度召回曲线(precision-recall curve)下的面积。

图 5:精度召回曲线

By me:

3.1 Representation of Complex Numbers

N feature maps such that N is divisible by 2;

Allocate the first N/2 feature maps to represent the real components and the remaining N/2 to represent the imaginary ones.

Four dimensional weight tensor W that links Nin input feature maps to Nout output feature maps and whose kernel size is m × m.

have a weight tensor of size (Nout × Nin × m × m) /2 complex weights

3.2 Complex Convolution

complex filter matrix W = A + iB;

complex vector h = x + iy

W ? h = (A ? x ? B ? y) + i(B ? x + A ? y).

use matrix notation to represent it:

3.3 Depth and Width in Deep Complex Networks

For a given layer, the number of parameters for each of the real and imaginary weights would be equal to N/2 × N/2 which means N2/2  when we sum both.

For a real-valued layer, it is N2.

假设一共有L层,那么实数值的参数是复数值的 (√ 2 )2L倍。

3.4 Complex Batch Normalization

未完待续。。。

时间: 2024-08-05 07:06:17

深度复数网络 Deep Complex Networks的相关文章

深度残差网(deep residual networks)的训练过程

这里介绍一种深度残差网(deep residual networks)的训练过程: 1.通过下面的地址下载基于python的训练代码: https://github.com/dnlcrl/deep-residual-networks-pyfunt 2.这些训练代码需要和pydataset包.下面介绍这两个包的安装方法. (1)pyfunt需要安装. 用命令:pip install git+git://github.com/dnlcrl/PyFunt.git  进行下载安计.        安装时

深度信念网络

深度信念网络 (Deep Belief Network, DBN) 由 Geoffrey Hinton 在 2006 年提出.它是一种生成模型,通过训练其神经元间的权重,我们可以让整个神经网络按照最大概率来生成训练数据.我们不仅可以使用 DBN 识别特征.分类数据,还可以用它来生成数据.下面的图片展示的是用 DBN 识别手写数字: 图 1 用深度信念网络识别手写数字.图中右下角是待识别数字的黑白位图,它的上方有三层隐性神经元.每一个黑色矩形代表一层神经元,白点代表处于开启状态的神经元,黑色代表处

Convolutional Deep Belief Networks 卷积深信度网络 论文笔记

参考论文:1.Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations                   2.Stacks of Convolutional Restricted Boltzmann Machinesfor Shift-Invariant Feature Learning 预备知识:http://blog.csdn.net/zouxy

[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

译自:http://sebastianruder.com/multi-task/ 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务.然后,我们通过精细调参,来改进模型直至性能不再提升.尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好.具体来说,这些信息就是相关任务的监督数据.通过在相关任务间共享表示信息,我们的模型在

吴恩达《深度学习》-课后测验-第一门课 (Neural Networks and Deep Learning)-Week 4 - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络)

Week 4 Quiz - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络) \1. What is the "cache" used for in our implementation of forward propagation and backward propagation?(在实现前向传播和反向传播中使用的"cache"是什么?) [ ]It is used to cache the interme

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3 http://blog.csdn.net/sunbow0 第二章Deep Belief Network (深度信念网络) 3实例 3.1 測试数据 依照上例数据,或者新建图片识别数据. 3.2 DBN实例 //****************例2(读取固定样本:来源于经典优化算法測试函数Sphere Model)***********// //2 读取样本数据 Logge

为什么深度神经网络难以训练Why are deep neural networks hard to train?

Imagine you're an engineer who has been asked to design a computer from scratch. One day you're working away in your office, designing logical circuits, setting out AND gates, OR gates, and so on, when your boss walks in with bad news. The customer h

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.2

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.2 http://blog.csdn.net/sunbow0 第二章Deep Belief Network (深度信念网络) 2基础及源代码解析 2.1 Deep Belief Network深度信念网络基础知识 1)综合基础知识參照: http://tieba.baidu.com/p/2895759455   http://wenku.baidu.com/link?url=

深度学习笔记(二)Very Deep Convolutional Networks for Large-Scale Image Recognition

Very Deep Convolutional Networks for Large-Scale Image Recognition 1. 主要贡献 本文探究了参数总数基本不变的情况下,CNN随着层数的增加,其效果的变化.(thorough evaluation of networks of increasing depth using an architecture with very small (3×3) convolution filters, which shows that a si