PReLU:Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 笔记

来源：互联网发布：淘宝刷单兼职91lingla 编辑：程序博客网时间：2024/06/06 03:02

1.PReLU

PReLU基本说明

f (y i) = {y i, i f y i > 0 a i y i, i f y i \leq 0

(1)

2.1. 前向传播过程（Forward Propagation Case）
对一个卷积层来说:

y l = W l x l + b l

(2)
x是

k2c×1维向量，相当于在c个通道中相关联的k×k个像素，W是d×n维的矩阵，d是卷积核的个数。表明，kernel的大小为d×k×k

x=f(yl−1)，f代表激活函数。
在我们的初始化策略里，

Wl独立同分布，

xl独立同分布，所以，

V a r [y l] = n l V a r [W l x l]

(3)
其中

yl，

Wl，

xl或者向量中的单一元素，

nl=k2c。

yl相当于

Wl或者

xl的线性组合。令

Wl为0均值分布，则,

V a r [W l x l] = E [W l x l] 2 - (E ([W l x l]) 2 = E [W l x l] 2 - (E W l E x l) 2 = E [W l x l] 2 = E W 2 l E x 2 l = V a r [w l] E [x 2 l]

(4)
故：

V a r [y l] = n l V a r [w l] E [x 2 l]

（5）

如果使Wl为对称0分布，b(l−1)=0,则yl为对称0分布（将y当做w的线性组合，x为系数）。激活函数为Relu时，相当于把y的分布小于0部分截断，则E[x2l]=1/2Var[yl−1]
从而Var[yl]=12nlVar[wl]Var[yl−1] (6)
对于第L层来说

V a r [y L] = V a r [y 1] \prod l = 2 L 1 2 n l V a r [w l]

(7)
一个好的初始化权重应当使每层的输入值幅度即不增大也不减少，故应当使连乘中的每一项为1

1 2 n l V a r [w l] = 1

(8)

2.2.反向传播过程(Backward Propagation Case)

（未完待续）

0 0