PReLU:Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 笔记

来源:互联网 发布:淘宝刷单兼职91lingla 编辑:程序博客网 时间:2024/06/06 03:02

1.PReLU

PReLU基本说明

f(yi)={yi,ifyi>0aiyi,ifyi0
(1)

2. 权重初始化方面的内容:

2.1. 前向传播过程(Forward Propagation Case)
对一个卷积层来说:

yl=Wlxl+bl
(2)
x是k2c×1维向量,相当于在c个通道中相关联的k×k个像素,W是d×n维的矩阵,d是卷积核的个数。表明,kernel的大小为d×k×k
x=f(yl1),f代表激活函数。
在我们的初始化策略里,Wl独立同分布,xl独立同分布,所以,
Var[yl]=nlVar[Wlxl]
(3)
其中ylWlxl或者向量中的单一元素,nl=k2cyl相当于Wl或者xl的线性组合。令Wl为0均值分布,则,
Var[Wlxl]=E[Wlxl]2(E([Wlxl])2=E[Wlxl]2(EWlExl)2=E[Wlxl]2=EW2lEx2l=Var[wl]E[x2l]
(4)
故:
Var[yl]=nlVar[wl]E[x2l]
(5)

如果使Wl为对称0分布,b(l1)=0,则yl为对称0分布(将y当做w的线性组合,x为系数)。激活函数为Relu时,相当于把y的分布小于0部分截断,则E[x2l]=1/2Var[yl1]
从而Var[yl]=12nlVar[wl]Var[yl1] (6)
对于第L层来说

Var[yL]=Var[y1]l=2L12nlVar[wl]
(7)
一个好的初始化权重应当使每层的输入值幅度即不增大也不减少,故应当使连乘中的每一项为1
12nlVar[wl]=1
(8)

2.2.反向传播过程(Backward Propagation Case)

( 未完待续)

0 0