Highway Networks

来源：互联网发布：易语言mp3播放器源码编辑：程序博客网时间：2024/05/29 04:12

Abstract

理论和经验表明神经网络的深度是至关重要的。但是训练深层次的网络优势非常困难的。我们设计了一种简化的架构来训练基于梯度的训练方式。我们将这种架构称为highway net，因为其允许信息跨越几层来进行信息传输。架构师通过条件单位，也就是gate unit进行调节网络中的信息流动。HighWay net能够训练非常深层次的神经网络。这些神经网络可以包含成千上百层可以包含各种各样的激活函数。

1Introduction

最近许多在监督学习中的图片都是应用的深度神经网络。网络的深度扮演了最重要的角色。

理论方面，总所周知，深度神经网络代表的特点函数，在分类领域带来了指数级增加的效率。正如Bengio et al 所认为的，在复杂任务中，深度神经网络能够提高计算和统计效率。

当然，训练神经网络不想简单的添加网络的操作一样简单。深度神经网络的优化已经被证明为相当困难的。这衍生出很多方面的研究，比如说，初始化策略，多阶段训练或者说，某些层的临时损失函数。

我们提出的创新的结构，可以优化任意网络深度。这是因为我们应用了闸门机制（gating mechanism ）进行调节信息流。由于闸门机制的运用使，信息及时穿越多层也不会衰减。

在前期试验中，我们发现，highway net能够利用简单的随机梯度下降优化900层的网络。

对于100层的神经网络，我们与传统的神经网络归一化的初始化进行了比较。我的得知，highway net的优化与网络的深度独立，we传统的就很不一样。而且，相比于Romero
et al 需要与训练，highway net可以直接对原始数据集进行训练而且能够得到相同的准确度。

1.1标记

加粗的字母表示向量和矩阵。斜体的大写字母表示转置。

2Highway Networks

平坦的前馈神经网络一般都包含L层

H是放射矩阵，WH是参数。

但是在Highway Network中，我们定义了两个额外的非线性转换。因此，

其中T指的是传送门，C指的是携带门。这显示了输出的不同权重。为了简化，在本论文中C = 1 - T。

为了保证公式（3）的合法性，的维度需要一样。特别的注意：

类似的，雅克比行列式：

一个highwaylayer

阅读全文

0 0