lecture4,backpropagation and nerual network

来源:互联网 发布:依伊芭莎淘宝 编辑:程序博客网 时间:2024/06/08 07:45

1,computational graphs,一系列简单的计算过程组成的一张图,易于求导(理论指导为链式法则)

a,. feedward

b,backward:前一个输入当作未知数求导,因为前一个输入包含着与未知数w的关系。即dydw=dydf(x).df(x)dx ,f(x)视为前一个输入。
所以

  1. 1.37下面应该为 11.372=0.53
  2. 将1.37视为output,对于0.37的倒数为1,所以0.37下面为-0.53*1 = -0.53
  3. -1.00下面:-0.53*e-1 = -0.20
  4. 1.00下面:-0.2*-1 = 0.2
  5. 4.00,-3.00 下面 0.2.(加号就直接分配梯度)对w2的梯度为0.2
  6. -2.00,6.00下面为0.2
  7. w0的梯度为0.2*(-1.00)= -0.2
  8. w1的梯度为0.2*(-2.00 )= -0.4

全连神经网络的bp过程:
- 数学方法:


以上图只有一个隐层的神经网络为例:得到y前,输入的softmax函数的变量用t表示。z经过activition function 后的输出用s表示。
未知数为权值矩阵Wdm[d+1,m],Wmk[m+1,k],
loss=i=1ktilnyi,yi=etika=1eta

所以有
dlossdyi=tiyi(1)
dyidti=yi(1yi)(2),dyjdti=yiyj(3)
由(1)(2)(3)式得
dlossdti=dlossdyi.dyidti+jidlossdyj.dyidti=yiti

2,对max gate的求导:
z=max(x,y)|x=2,y=0
此时zx的导为2,对y的导为0.

3,向量对矩阵或向量求导

Ax=y
所以有y1=a11x1+a12x2+...+a1nxn,...,yn=an1x1+an2x2+...+annxn

观察可知:dyidaij=xj,dykdaij=0(ki),所以(dydA)ij=xj。同理因为dyidxj=aij,所以(dydx)i=nk=1aki

原创粉丝点击