高速网络

来源:互联网 发布:报淘宝客加qq是真的吗 编辑:程序博客网 时间:2024/04/28 06:23

高速网络

Abstract:

理论和经验表明,网络深度对网络性性能有决定性的作用。然而,网络的深度增加,随之网络训练的难度也相应增加,训练一个非常深的网络仍然是一个难题。这篇文章中,介绍了新的architecture设计减轻基于梯度训练的难度。我们把使用了这种architecture称为高速网络,因为在信息高速公路上,信息流它畅通无阻的穿过很多层。这种architecture因使用控制单元,这种控制单元用于调节在网络上的信息流。具有上百层的高速网络直接可以通过随机梯度下降训练,其中使用各种激活函数,该网络具有学习非常深入并且架构高效。

 

1.Introduction:

近期许多实践证明,通过深层神经网络的应用,监督机器学习领域获得很多突破。网络深度(连续计算层的数量)在当中着重要作用。例如,这几年,通过组合更深网络结构和更小的感受野(Ciresan et al.,2011a;b; 2012),top-5图像分类精确率在1000类 ImageNet已经从~84%( (Krizhevsky et al.,2012))提升到~95%( Szegedy et al.,2014;Simonyan& Zisserman,2014)。

在理论方面,众所周知,深度网络比浅层网络可以更有效表示某些函数类。Bengio et al. (2013) 认为深度网络对复杂任务在计算和统计上更高效。

然而,更深层次的网络培训不是简单地添加层。深层网络的优化已被证明更为困难,开始初始化策略,在多个阶段网络训练技术,某些层临时同伴损失函数。

文章中,我们提出了一个新颖的结构,它使网络的几乎任意深度的优化。受到长短期记忆递归网络的启发,我们通过使用一种闸门机制调节信息流,神经网络。由于门控机制,神经网络中有路径,使得信息可以无衰减流过多层。我们称这样的路径是信息高速公路,而这种网络称为高速网络。

在初步实验中,我们发现,900层的高速网络可以通过随机梯度下降优化。对于多达100层,在训练行为方面我们对比通过归一初始化的传统网络。我们表明,高速公路网络的优化是几乎完全不受深度,而对于传统的网络是显著遭遇作为层的数量增加。我们还表明,相比较(Romero et al.(2014))结构,高速网络可直接训练得到类似的测试精度上CIFAR-10的数据集,而不需要一个预训练的教师网络。

1.1.           Notation

我们用粗体字母表示向量和矩阵,以及斜体大写字母来表示变换函数。0和1表示向量零和向量一,I表示单位矩阵。函数σ(x):

2. Highway Networks

一个普通的前馈神经网络通常由

H通常是仿射函数,后面跟着非线性激活函数,也有其他形式。

对于一个高速网络,我们额外定义两个非线性变换函数,T和C:

T称为和C  我们把T作为变换门和C为进位门,因为它们表现如何输出备受产生变换的输入和分别携带它,。对于简单起见,在本文中,我们设定C =1 - T,使

同样,对于该层的雅可比变换,

因此,根据转换门的输出端,一个公路层能够顺利改变它的之间的行为一个普通的一层一层,它简单地传球和中其输入通过。只是作为一个普通的层由多个计算单元,使得第i个单元计算yi =Hi(x),高速公路网络由这种多块第i个块计算块状态Hi(x)和变换门输出的Ti(X)。最后,它产生的输出块yi = Hi(x) ∗ Ti(x) + xi ∗ (1 − Ti(x)),,其连接到下一层。

2.1. Constructing HighwayNetworks

如前所述,式(3)要求的x,y,H(X,WH)和T的维度(X,WT)是相同的。在当期望改变表示的大小的情况下,可以更换x,其中x由适当得到二次采样或补零的X.另一种方法是使用普通层(没有高速公路)来改变维度,然后继续堆放公路层。本是我们在这项研究中使用的替代品。卷积公路层被构造为类似于完全连接层。重量共享和本地接受字段被用于既H和T变换。我们用零填充,以确保该块状态和改造栅极特征映射具有相同的尺寸与输入。

2.2. Training Deep HighwayNetworks

对于普通深层网络,培训与SGD摊档开始除非特定重量的初始化方案使用这样的信号的过程中向前的方差和向后传播的最初(Glorot&保留Bengio,2010;他等人,2015年)。此初始化依赖H.确切的函数形式。(初始化策略对结果性能好坏有影响,所以对H函数有很高的要求)。

对于高速公路层,我们使用定义为变换门T(X)=σ(WTT X + BT),其中WT是权重矩阵和BT的变换栅极偏置向量。这表明一个简单的初始化方案,该方案是独立的H的性质:BT可以具有负初始化值(例如-1,-3等),使得该网络是最初偏于携带的行为。该方案是由热尔等人的建议,强烈的启发。(1999年),最初的偏见在相当长的短时记忆经常性的网络之门以帮助弥补早期长期时序依赖学习。需要注意的是σ(x)的∈(0,1),∀x∈R,所以在等式的条件(4)永远不能完全如此。(bt偏小导致仿射函数偏小,y跟随x状态)

在我们的实验中,我们发现,一个负偏压初始公路网化是足够的学习进行的非常深刻网络的WH各种零均值初始发行和使用由H.不同的激活功能这是显著的性能,因为在一般也未必能够找到H.很多选择有效的初始化方案。

3. Experiments

3.1. Optimization

非常深的纯网络变得难以优化,甚至如果采用方差保持初始计划表(He等,2015)。要说明的是公路网不从深度遭受以同样的方式,我们培养运行一系列对MNIST位分类数据集实验。我们测量在训练集的交叉熵误差,以调查的优化,而不会泛化问题混为一谈他们。

我们培养既普通网络和公路网络,相同的体系结构和不同的深度。第一层是总是有规律完全连接层,然后9,19,49,或99完全连接的普通或公路层和单SOFTMAX输出层。单元中的每个数层被保持恒定,这是50,用于公路和71对于普通的网络。这样的参数的数量是大致相同的两个。为了使比较公平我们运行一个随机搜索的40道为平原和公路网找到的超参数设置好。我们优化最初的学习速度,动量,学习速率衰减率,激活函数H(无论是ReLU VS正切),并为公路网,为价值变换栅极偏压(-1至-10)。所有其他权重初始化下面的方案介绍由(他等人,2015年)。

收敛地块为表现最好的网络进行每一深度可以在图中可以看出1.为10层普通网展非常不错的表现,他们的表现显著会随着深度的增加。公路另一方面网络似乎没有从一个挨增加深度可言。 100层的最终结果公路网比幅度约1级,10层之一,并且是在同水准与10层纯网络。事实上,我们开始训练了类似的900层的公路网络上CIFAR-100仅是在80时代截至目前,但到目前为止,已经显示出优化的迹象困难。还值得指出的是,高速公路网络总是收敛比普通显著快的。

 

 

 

 

 

 

 

 

LSTM

长短期记忆模型(long-shortterm memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此LSTM模型被提出;

理解LSTM的核心是“cellstate”,暂且名为细胞状态,也就是上述图中最顶的传送线,如下:

0 0