深度复数值网络 Deep Complex Networks

来源:互联网 发布:动态锁屏软件 编辑:程序博客网 时间:2024/06/03 20:39

摘自:http://www.cnblogs.com/skykill/p/7067684.html

目前绝大多数深度学习模型中的数学都是实数值的,近日,蒙特利尔大学、加拿大国家科学院-能源/材料/通信研究中心(INRS-EMT)、微软 Maluuba、Element AI 的多名研究者(其中包括 CIFAR Senior Fellow Yoshua Bengio)在 arXiv 上发布了一篇 NIPS 2017(今年 12 月在美国 Long Beach 举办)论文,提出了一种可用于复数值深度神经网络的关键组件,该团队也已经在 GitHub 上开源了相关研究代码。

  • 论文地址:https://arxiv.org/abs/1705.09792 

  • 代码地址:https://github.com/ChihebTrabelsi/deep_complex_networks


摘要

      目前,深度学习的绝大多数构建模块、技术和架构都基于实数值的运算和表征。但是,近来在循环神经网络和其它更古老的基础理论上的分析表明复数可以有更加丰富的表征能力,也可以促进对噪声鲁棒的记忆检索机制。尽管它们在带来全新的神经架构上有引人注目的性质和潜力,但由于缺少设计这种模型所需的构建模块,复数值的深度神经网络一直处于边缘化的状态。在这项研究中,我们提供了可用于复数值深度神经网络的关键基本组件,并将它们应用到了卷积前馈网络中。更准确地说,我们依靠复数卷积,提出了可用于复数值深度神经网络的复数批规范化、复数权重初始化策略,并且我们还在端到端的训练方案中对它们进行了实验。我们表明,这样的复数值模型可以实现与其对应的实数值模型相媲美或更好的表现。我们在一些计算机视觉任务和使用 MusicNet 数据集的音乐转录任务上对深度复数模型进行了测试,实现了当前最佳的表现。


1 引言

        Recent research关于解决学习深层神经网络架构中遇到的困难的研究
取得了重大进展。主要的创新包括,标准化技术[Ioffeand Szegedy, 2015, Salimans and Kingma, 2016] 基于门控的前馈神经网络,例如Highway Network[Srivastava et al., 2015] 残差网络 [He et al.,2015a, 2016] 残差网络作为训练非常深的卷积神经网络(CNN)的最受欢迎和最有效的策略之一出现。Highway Network和残差网络通过提供捷径来促进深度网络的训练,从而简化梯度流向下层网络,从而减少梯度消失的影响
[Hochreiter, 1991]. He et al. [2016]表示学习每层的明确的残差可以帮助避免梯度消失带来的问题,为网络提供了一个更简单的优化问题。批规范化[Ioffe andSzegedy, 2015]使中间层的激活标准化,在小型网络中作为强大的正则化器提供了更快的训练和更好的收敛性。除此之外,由于梯度消失和爆炸的问题,标准化输出层的技术在深度架构中变得非常关键。

    基于复数表示的作用开始受到越来越多的关注,主要因为如下优点:更容易被优化[Nitta, 2002],有更一般化的特征[Hirose and Yoshida, 2012],可以更快地学习 [Arjovsky et al., 2015, Danihelka et al., 2016,Wisdom et al., 2016],鲁棒性噪声机制 [Danihelka et al., 2016]Wisdom et al. [2016] and Arjovsky et al. [2015]表示在循环神经网络(RNNs)中使用复数具有更丰富的表现能力。 Danihelka et al.[2016]提出一个LSTM架构[Hochreiter and Schmidhuber, 1997],增加了复数值内部表征的协同记忆,他们的工作突出了在协同记忆的检索和插入中使用复数值表示的优点,在残差网络中,每个块的输出中添加之前的输出历史累计的总和直至该点,有效的检索机制可以帮助提取出有用的信息并在块内处理它。
    
    为了利用复数值模型提供的优势,我们提出了构建复数值深度神经网络的构建组件的一般公式,并将其应用于前馈卷积网络的环境中,我们在本论文的贡献如下:
                1.对复数批规范化(complex batch normalization)进行了公式化,详见 3.4 节;
                2.复数权重初始化,详见 3.5 节;
                3.在多乐器音乐转录数据集(MusicNet)上达到了当前最佳的结果,详见 4.2 节。


          我们证明了深度复数值网络在三个标准图像分类基准CIFAR-10, CIFAR-100,Street View House Numbers (SVHN)和MusicNet数据集上的音乐转录任务的有效性代码地址:https://github.com/ChihebTrabelsi/deep_complex_networks。视觉分类任务的结果表明复数值表示的学习会导致与相应的实数值架构竞争。我们在音乐转录中所希望的结果是深度复数值神经网络可以开放应用于声音相关的任务。

    下面我们继续讨论使用复数值操作的动机以及本文的相关工作。



2 动机和相关工作

      使用复数参数从计算,生物和信号处理的角度来看有很多优点。
    
     从计算的角度来看, Danihelka et al.[2016]使用复数来表示全息缩小[Plate, 2003]用于联合存储器的信息检索的数值时是有效和稳定的。Danihelka et al.[2016]在关联存储器中插入键值而添加到内存跟踪中。尽管一般不这样认为,但是残差网络[He et al., 2015a, 2016]和Highway Networks[Srivastavaet al., 2015]具有与关联存储器相似的架构:通过汇总到身份连接提供的“内存”中,每层网络的剩余路径计算一个待插入的残差。鉴于残差网络在几个基准上取得的成功,以及它与相联存储器在功能上的相似,把两者结合起来似乎很有趣。这促使我们在残差网络中加入复数权重和激活。他们一起提供了一种机制,通过该机制可以检索,处理,插入每个残留块中的剩余信息。

  正交权重矩阵,其特征值具有模数1,为RNN(循环神经网络)中众所周知的消失和爆炸梯度问题提供了新颖的攻击视角。单一RNN [Arjovskyet al., 2015]基于单位权重矩阵,它们是正交权重矩阵的复杂泛化。与其正交矩阵相比,单一矩阵提供了更丰富的表示,例如能够实现离散傅里叶变换,从而发现光谱表示。 Arjovsky et al.[2015]显示了这种类型的复发神经网络对toy task的潜力。Wisdom et al. [2016]提供了一个更一般的学习单位矩阵的框架,他们将其方法应用于toy task和现实世界的语音任务。

  在神经网络中使用复数值权重也具有生物动机。 Reichert and Serre[2013]提出一种貌似可行的生物深度网络,允许使用复值神经元建造一个更丰富多功能的单元。复数值公式中神经元的输出依据激发率以及其活动相对应的时间来表示。复合神经元的振幅代表前者,其相位是后者。具有相似相位的输入神经元称为同步的(synchronous),他们积极的增加。然而异步神经元的增加则是破坏性(asynchronous)的,并且相互干扰。这与在前馈神经网络[Srivastava et al., 2015, van den Oord et al.,2016a,b]和循环神经网络[Hochreiter and Schmidhuber, 1997, Cho et al., 2014, Zillyet al., 2016]中使用的门机制有关。这个机制学习使在给定的前馈层或时间步长的网络传播中的输入同步发生。在深基于门控的网络的环境中,同步意味着控制门输入信号的传播一直保持着高值。这些控制门通常由sigmoid函数激活。考虑相位信息的能力可能解释了在循环神经网络的背景下合并复数值模型的的有效性。

  相位分量不仅在生物学角度来看很重要,而且从信号处理的角度也是重要的。现已表明语音信号中的相位信息影响其可理解性 [Shi et al., 2006] Oppenheim and Lim[1981]表示图像相位中的信息的数量足够恢复其大小编码大部分信息。事实上,相位对对象的形状,边缘和方向进行编码时会提供详细的描述。

  最近Rippel et al.[2015],利用傅里叶频谱表示卷积神经网络,提供一种在频谱域中用参数表示卷积核心权重的技术,并对信号的频谱表示进行汇总。然而,作者避免执行复数的卷积,选择从空间域中的实值内核进行构建。为了确保频谱域中的复数参数映射到实值内核中,作者对频域权重施加共轭对称约束,使得当对其进行傅里叶变换时,它仅产生实数值的核函数。

  正如 Reichert and Serre[2013]指出,复数值神经网络 [Georgiouand Koutsougeras, 1992, Zemel et al., 1995, Kim and Adali, 2003, Hirose, 2003, Nitta, 2004]的使用在很早之前就被研究了,比最早的深度学习[Hinton et al., 2006, Bengioet al., 2007, Poultney et al., 2007]得到突破还要早。最近 Reichert and Serre[2013], Bruna et al.[2015], Arjovskyet al. [2015], Danihelka et al. [2016], Wisdom et al. [2016]尝试通过提供使用复数值深度网络的理论和数学动机,将深度复数值神经网络重新被重视。然而,据我们所知,近期大多数复数值神经网络都被应用于toy tasks,除了Oyallon and Mallat[2015]的一些尝试之外, Tygert et al.[2015]报道了CIFAR- 10的结果。 Wisdom et al.[2016]还执行了一个真实世界的语音任务,包括预测未来短时傅里叶变换帧的对数幅度。开发适当的工具以及用具有复数值参数的一般框架训练深层神经网络,都还有很多的工作需要做。

  使用复数值来表示的令人信服的理由是,框架的缺乏表示了机器学习工具的差距,我们通过为深度复数值神经网络提供一组构建块来填补这些缺陷,使其能够与现实世界任务(real-world tasks)中的实值神经网络real-valued counterparts )执行结果相似,或者更好。


3 复数值构建模块

   在本节中,我们介绍了我们工作的核心,为实现深度神经网络的复数构建模块制定了数学框架。

3.1 复数的表示

   我们首先概述在我们的框架中复数的表示方式。复数z=a+ib 具有实分量a和虚分量b。我们将复数的实部a和虚部b表示为逻辑上不同的实值实体,并且在内部使用实数算法来模拟复数的。考虑到具有N个特征映射的典型实际2D卷积层,其中的N可以被2整除,为了将它们表示为复数,我们分配前N/2个特征映射来表示实部,剩余N/2个特征映射来表示虚部。因此,对于四维权重张量W,将Nin个输入特征映射链接到Nout个输出特征映射,并且其内核大小为m*m。我们将有一个大小为(Nout×Nin×m×m)/2的复数权重的权向量。

3.2 复数卷积

    为了在复值域中等价执行传统的实值二维卷积,因为我们使用实值算法模拟复值算法,所以我们可以通过将复数向量h h=x+i卷积一个复数滤波矩阵W W=A+i ,其中A和B是实数矩阵,x和y是实数向量。由于卷积运算符是分布式的,将向量h与滤波器w进行卷积可以得到:
                     Wh= (Ax-By) +i(Bx+Ay) (1)
如果我们使用矩阵表示法来表示卷积运算的实部和虚部,则我们有
                  。。。。。。。。。。。(2)
这在图1(a)中说明。


3.3 深度复数网络的深度和宽度

   

    在本节中,我们展示对于给定了参数预算,复数的前馈架构可以比实数的前馈架构更广更深。

   

    为了简单起见,我们假设有一个深的前馈网络,每层都有N个单元,其深度为L。则对于复数的前馈网络,这相当于在每一层都有N/2个复数单元,对于给定层,每个实权重和虚权重的参数数量将等于N/2×N/2, 这意味着当我们求和时,有N平方/2。另一方面,对于实值前馈网络,给定层的参数总数将等于N平方。我们可以看到,复值架构允许将总权重的数量减半,因此,对于给定的参数配置,它将比实值架构更宽。整个网络的总复值参数的数量会是。。。。对于实值前馈网络,参数的数量将等于。。。我们可以清楚地看出,对于给定的宽度和深度,参数的数量在实值神经网络重比在复值神经网络中要多。。。倍数。这意味着复值架构可以比实值架构更好地利用深度。因为对于给定的参数预算可能和呈指数级加深。


3.4 复数批规范化
   
    深度网络通常依赖于批规范化[Ioffe and Szegedy, 2015]来加速学习。在某些情况下,批规范化对于优化模型至关重要。批规范化的标准的公式仅适用于实值。在本节中,我们提出了可应用与复值的规范化公式。
   
    为了将复数数组标准化到标准的正态复合分布,仅通过转换和缩放使其平均值为0方差为1是不够的。这样的归一化不能确保实部和虚部重有相等的方差,并且由此产生的分布可能是非常奇怪的。
   
    我们改为把这个问题看作是美化的2D矢量问题,这意味着数据将按两个主要成分的方差的平方根进行缩放。这可以通过将0-centered数据(x-E[x])乘以2*2协方差矩阵V的逆平方根来完成
                              。。。。。。
其中协方差矩阵V为:
                              。。。。。。
2*2矩阵倒数的平方根具有更好的解析解,它的存在是由协方差矩阵V的positive (semi-)definiteness 来确定的。通过向V正则化器添加。。来确保V的正确性。通过方差的逆平方根的平均减法和加法确保x具有标准分布,即平均值为0,协方差为1,伪协方差为0的标准分布。其中平均值,协方差和伪协方差由下公式给出:
                              。。。。。。。。
                              。。。。。。。。。。。
                              。。。。。。。。。。。。。。。。(3)

      归一化过程允许去除一个关联单元的虚部和实部。这样可以避免两个组分之间同时匹配,降低了过度拟合的风险。[Cogswell et al., 2015, Srivastava et al., 2014].
  
      类似于实值的批规范化算法,我们使用两个参数贝塔和伽马。位移参数贝塔是具有两个可学习分量(实部和虚部)的复参数。缩放参数伽马是仅具有三个自由度的2*2正半定矩阵【【半正定矩阵】一个n× n的埃尔米特矩阵M是正定的当且仅当对于每个非零的复向量z,都有z*Mz > 0,则称M为正定矩阵,其中z* 表示z的共轭转置。当z*Mz > 0弱化为z*Mz≥0时,称M是半正定矩阵由于 M是埃尔米特矩阵,经计算可知,对于任意的复向量z,z*Mz必然是实数,从而可以与0比较大小.与正定矩阵相对应,一个n× n的埃尔米特矩阵M是负定矩阵,当且仅当对非零的复向量z都有:z*Mz < 0.具有对称矩阵A的二次型f=x'Ax。如果对任何非零向量x,都有x'Ax≥0(或x’Ax≤0)成立,且有非零向量x0,使x0'Ax0=0,则称f为半正定(半负定)二次项,矩阵A称为半正定矩阵(半负定矩阵)。。。一个矩阵的顺序主子式的行列式的值全部大于0则称矩阵正定。若一个矩阵的顺序主子式行列式的值全部大于或者等于0则称正半顶。同理,全部小于0称负定,全部小于或等于0称负半定。】,因此仅具有三个可学习的分量。矩阵(v)1/2 按照两个原始主分量以同样的方式将输入的方差归一化为1。因此,按照期望的新主分量对输入进行缩放以实现期望的方差。缩放参数伽马由下式给出:
                            。。。。。。。

       由于归一化输入x具有实和虚方差1,我们将伽马rr和伽马ii都初始化为1./根号2,以便于使得归一化的方差得到1的模数。伽马ri和。。和。。都初始化为0,复值批规范化定义为:
                          。。。。。。。。。。。(4)
我们使用运动平均动量来未出训练和测试期间复值规范化统计的估计。伽马ri和贝塔的运动平均值初始化为0,Vrr和Vii的运动平均值初始化为1/根号2。运动平均值的动量设定为0.9。


3.5 复数权重初始化

     在一般情况下,特别是当不执行批量归一化时,适当的初始化对于降低梯度消失或爆炸是至关重要的。为了做到这点,我们遵循 Glorot and Bengio[2010] and He et al. [2015b]一样的做法,导出复数权重参数的方差。

     复数权重和直角坐标形式一样具有极坐标形式
                 W = |W|ei0= }十 i },(5)
其中斯塔是W的相位,|W|是W的幅度。
方差是平方的期望和期望的平方之间的不同之处:
          Var(W) = E [WW*] - (E[W])2 = E [|W|2] - (E [W])2
这在W对称分布在0附近的情况下减小到(E [W])2我们还不知道Var(W) = E [|W|2]的值。然而我们知道一个相关的量,Var(|W|),因为复数正常值的大小|W|遵循瑞利分布(Chi分布有两个自由度(DOFs))。这个量是
            Var(|W|) = E [|W||W广]-(E [|W|])2 = E [|W|2] - (E [|W|])2. (6)
把它们放到一起:
            Var(|W|) =Var(W) - (E [|W|])2, and Var(W) =Var(|W|)十(E [|W|])2.
我们现在有一个关于W的方差的公式,公式依据其大小的方差和期望。这两个属性可以从瑞利分布的单个参数a,指示模型分析计算,这些是:

     E [|W|]=^^2, Var(|W|) = ^a2.

W的方差可以用其生成的瑞利分布的单个参数a,来表示,因此,
            Var(W)= 。。。。。。。(7)

     如果我们要遵循Glorot and Bengio [2010] 的标准,确保输入,输出和梯度的方差相同,那么我们将有Var(W) = 2=(nin+nout) ,其中ninandnout 分别是输入和输出单元的数量。这种情况下σ= 1=pnin+nout ,。如果我们要遵守He et al. [2015b]  的初始化,会呈现特定于ReLUs的初始化标准,那么Var(W) = 2=nin  ,其中σ= 1=pnin

    然后使用具有合适模式σ 的瑞利分布来初始化参数W的幅度。从等式7可以看出,W的方差取决于其变换,而不是相位。然后,我们使用-πandπ. 之间的均值分布来初始化相位。通过等式5中的详细描述执行量级的乘法,我们执行复值参数的完全初始化。

    我们在实验设置中探索利用单一矩阵的独立性来初始化另一个变体。如 Cogswell et al.[2015], Srivastava et al.[2014], andTompson et al.[2015],等人所述,学习相关功能对学习是有利的,因为他允许执行更好的泛化和更快的学习。这促使我们考虑用一个(半个)单式矩阵重新形成权重张量来实现初始化。一旦这样做了,权重张量就会被 ^Hevar/Var( W) 或者^GlorotVar/Var( W) 复合,其中GlorotVar 和 HeVar分别等于2/(nin 十 nout) 和 2/nin。在这样的方式中我们允许内核尽可能彼此独立,同时遵循所需的标准。


3.6 复数卷积残差网络

       He et al. [2015a, 2016]  提出的深层卷积残差神经网络是由三个阶段组成,三个阶段的特征图是相同形状的。在一个阶段结束时,特征图以2的因子进行下采样,并且卷积滤波器的数量会加倍。卷积内核的大小总是设置为3*3。在一个阶段中存在几个包含两个卷积层的残差块。实值和复值设置张的一个这样的残差块的内容在图1(b)中显示。

        在复值的设置中,大部分架构与He et al. [2016]  等人提出的架构保持一致,有一些微妙的差异。由于我们所使用的所有数据都是实值的,因此我们提供了一种方法来学习它们的虚部,来让网络的剩余部分可以咋复值的平面中运行。我们通过执行单个实值残差块中存在的操作在学习初始输入是虚部时的操作。
                                       。。。。。。。。。。

         通过从特定任务的损失函数的反向传播错误来训练该是指残差块的参数。然后对所获得的复值输入进行。。。操作,再将其送入到第一个残差块。我们还对实值网络输入进行相同的操作,来替代He et al. [2016] 使用。。。对于内部的残差块,我们巧妙得改变了我们在网络阶段i额数时执行投影得方式,我们将最后一个残差块的输出与施加在其上的1x1卷积的输出相连,整个阶段使用相同数量的滤波器,并将子采样乘以2。相反,He et al. [2016]  等人执行类似的1x1卷积,采用当前阶段中特征滤波器数量的两倍,以便在空间上对特征图进行下采样,并将数量加倍。


4 实验结果

     在本节中,我们介绍使用我们的模型来执行图像和音乐分类的实验结果。首先介绍我们的模型的架构,其次介绍在三个标准图像分类基准--CIFAR-10,CIFAR-100和SVHN上获得的结果,以及在MusicNet基准上的自动音乐转录的结果。

4.1 图像识别

      如3.6节所述,我们采用与 He et al.[2016] 等人相似的架构,也将这个作为我们比较的基准。我们模型之间的本质不同也在3.6节讨论过了。我们训练两种不同尺寸的实值和复值网络--一个约为800k参数的小型网络和一个约1.7M参数的大型网络,分别由表2中的(S)和(L)表示。s1滤波器,s2滤波器和s3滤波器是指分别在阶段1,2,3中在每个卷积层中使用的卷积滤波器的数量。如3.3节所述,我们的复数网络拥有比实数网络更少的参数。因此,我们在一个阶段中改变每个阶段的残差块数量和每个卷积层滤波器的数量,以适当地使参数数量等于其实数值对应的网络中的数量,如表1所示。

    实数值和复数值网络都有三个阶段,其中保留了特征图和卷积内核的数量和形状。在每个阶段结束时特征图在空间以卷积的2倍进行线性下采样,因此卷积内核的数量加倍,从而也使得特征图的数量加倍。全局平均共享层以及之后的softmax函数的单连接层,被用来对输入进行分类,将输入分类为CIFAR-10和SVHN中的10个类别中的一个,CIFAR-100的100个类别中的一个。

    所有的模型(实值和复值)都使用Nesterov动量[Nesterov, 1983]设置为0.9的随机梯度下降的反向传播算法进行训练。我们将我们的梯度规范缩减为1。在实值和复值的残差网络中,我们调整了He et al. [2016] 使用的学习速率表,对两者的小性能进行改进。在前10个时期,我们开始以学习速率为0.01的预热训练,从10到100的时期开始,将其设置为0.1,然后在120到150的时期内将学习速率降低10倍。

    表2显示了对CIFAR-10,CIFAR-100和SVHN进行图像分类的结果。出于计算的原因,我们仅对SVHN的73257张图像进行训练,但仍对所有的26032张图像进行测试。如第4.1节和第3.6节所述,我们拥有两个不同大小的实值和复值网络。模型尺寸的影响与He et al. [2016], Zagoruyko and Komodakis [2016]
的观察结果是一致的,这表明增加模型的容量有助于减少训练和测试的错误。我们的大型复值模型优于CIFAR-10和SVHN的实值变体,我们的小型复值模型优于CIFAR-10上的实值。我们还观察到,复值网络的训练曲线在最初的几个时期更加稳定,并且下降得更快。

     我们网络中得特征图空域在图3和图4中直观得显示。图3包含网络第一阶段得最后卷积层中的特征图(左)以及其极坐标(右)的图。图4给出了第二阶段(左)第三阶段(右)中最后卷积层的特征图。不同的行对英语不同的输入(第一列)输出到网路以生成的特征图。对于每个输入,特征图被绘制为3组(实部,虚部)对,从实特征图开始,其中的实数分量及其相对应的虚分量彼此相邻。特征图好像是在学习空间上的免费热力图。


4.2 MusicNet数据集上的自动音乐转录

     在本节中,我们将介绍自动音乐录音(AMT)任务的实现结果。音频信号的性质允许人们利用签名所介绍的复值操作。实验在MusicNet数据集[Thickstun et al., 2016]上进行。为了计算的效率,我们使用Smith [2002] 所描述的算法将原始输入重新采样从44.1kHZ到11kHZ。该采样率足以识别数据集中呈现的频率,同时还可以显著降低计算成本。我们使用独立的sigmoids函数进行模拟数据集中84个notes中的每一个。与基线一样,我们对原始信号和频谱进行实验。对于原始信号的复值实验,我们认为其虚部等于0。当使用频谱做为输入时,在其实值和复值模型中我们都使用它的复值进行表示(而不是像往常一样的AMT的幅度只有大小)。对于实值模型,我们将频谱的虚部和实部分为单独的通道。我们用于原始信号的模型是类似于在基线中使用的浅卷积网路模型,其尺寸减小了4倍(对应于采样率的降低)。滤波器大小为512个步幅为16的样本(约12ms)。用于频谱的模型类似于VGG模型[Simonyan and Zisserman, 2015] 。第一层具有大小为7的滤波器,随后是5个大小为3的滤波器形成的卷积层。在我们的所有实验中,我们使用4096个样本的输入窗口或其对应的FFT(其对应于基线中使用的16384窗口)来预测窗口中心的notes。

    复值网络使用3.5节所描述的符合He标准的统一初始化方案进行初始化。对于实值网络,我们使用了权重张量进行近似初始化。它包括以根号2的增益执行正交初始化。根据3.4节应用复值的批规范化。遵循Thickstun et al.[2016] 的方法,我们使用ids ’2303’, ’2382’, ’1819’ 作为测试子集,另外我们使用ids ’2131’, ’2384’, ’1792’, ’2514’, ’2567’, ’1876’ 作为验证子集(从训练集中随机选择)。验证子集用于模型的选择和easy stop。其余321个文件用于训练,结果总结在表3中。

    我们通过浅卷积网络实现与基线(baseline)相当的性能。与真实模型相比,深度复杂卷积网络的参数明显减少,并且平均精度达到72.9%,这时我们所知的最先进的技术。有关精确回忆曲线和模型输入的样本,请参见附录。

5 结论

    我们已经提出了训练复值神经网络所需的关键构建块。例如复值的批规范化和复值的权重初始化。我们还研究了一些复值卷积网络的架构,他们为图像分类提供了具有竞争意义的优势,并且为音乐转录任务提供了最新的研究成果。我们预计我们的工作将为深入学习复值网络模型的进一步研究打开大门,并且可以将其应用与更具挑战的任务,如音频和图像的生成模型。



附录

图 1:复值卷积网络和残差网络的实现细节(a)复杂卷积算子的说明(b)一个复值的卷积残差网络(左)和一个等价的实值残差网络(右)
图 2:小型的复值网络VS实值网络的训练和测试的误差曲线,基于CIFAR-10
表 1:模型架构。S1、S2 和 S3 Filters 分别是指在 stage 1、2 和 3 每一层所使用的卷积滤波器的数量。(S) 表示小网络,(L) 表示大网络。
表 2:在 CIFAR-10、CIFAR-100 和 SVHN 上的分类误差。注意 He et al. [2016] 使用了 110 层的模型
(图3和图4使用小型复值残差网络模型进行训练,基于CIFAR-10)
图 3:(a) 作为每次输入的实数和虚数对的 Stage 1 特征图;(b) 作为幅度和相的特征图
图 4:作为每次输入的实数和虚数对的 Stage 2 和 3 特征图
表 3:MusicNet 实验。FS 表示采样率。Params 是参数的总数量。我们给出了平均精度(AP)指标,是指精度召回曲线(precision-recall curve)下的面积。
图 5:精度召回曲线

图 6:来自测试集的一段音乐的预测(上)和真实情况(下)


原创粉丝点击