Highway Networks

来源:互联网 发布:易语言mp3播放器源码 编辑:程序博客网 时间:2024/05/29 04:12

Abstract

理论和经验表明神经网络的深度是至关重要的。但是训练深层次的网络优势非常困难的。我们设计了一种简化的架构来训练基于梯度的训练方式。我们将这种架构称为highway net,因为其允许信息跨越几层来进行信息传输。架构师通过条件单位,也就是gate unit进行调节网络中的信息流动。HighWay net能够训练非常深层次的神经网络。这些神经网络可以包含成千上百层可以包含各种各样的激活函数。

1Introduction

最近许多在监督学习中的图片都是应用的深度神经网络。网络的深度扮演了最重要的角色。

理论方面,总所周知,深度神经网络代表的特点函数,在分类领域带来了指数级增加的效率。正如Bengio et al 所认为的,在复杂任务中,深度神经网络能够提高计算和统计效率。

当然,训练神经网络不想简单的添加网络的操作一样简单。深度神经网络的优化已经被证明为相当困难的。这衍生出很多方面的研究,比如说,初始化策略,多阶段训练或者说,某些层的临时损失函数。


我们提出的创新的结构,可以优化任意网络深度。这是因为我们应用了闸门机制(gating mechanism )进行调节信息流。由于闸门机制的运用使,信息及时穿越多层也不会衰减。

在前期试验中,我们发现,highway net能够利用简单的随机梯度下降优化900层的网络。

对于100层的神经网络,我们与传统的神经网络归一化的初始化进行了比较。我的得知,highway net的优化与网络的深度独立,we传统的就很不一样。而且,相比于Romero
et al
 需要与训练,highway net可以直接对原始数据集进行训练而且能够得到相同的准确度。

1.1标记

加粗的字母表示向量和矩阵。斜体的大写字母表示转置。

2Highway Networks

平坦的前馈神经网络一般都包含L层

H是放射矩阵,WH是参数。


但是在Highway Network中,我们定义了两个额外的非线性转换。因此,


其中T指的是传送门,C指的是携带门。这显示了输出的不同权重。为了简化,在本论文中C = 1 - T。


为了保证公式(3)的合法性,的维度需要一样。特别的注意:


类似的,雅克比行列式:


一个highwaylayer