深度学习笔记(二)---反向传播算法

来源:互联网 发布:c语言大小写转化 编辑:程序博客网 时间:2024/05/22 00:03

反向传播算法

一、简介

反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法。

·其主要思想是:

  1. 将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;

  2. 由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;

  3. 在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。

二、过程

假设我们有一个固定样本集 ,它包含 m 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例 (x,y),其代价函数为:

这是一个(二分之一的)方差代价函数。给定一个包含 m 个样例的数据集,我们可以定义整体代价函数为:

以上公式中的第一项 J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。

[注:通常权重衰减的计算并不使用偏置项 ,比如我们在 J(W, b) 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229(机器学习)课程,或者在YouTube上看过课程视频,你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中,我们将高斯先验概率引入到参数中计算MAP(极大后验)估计(而不是极大似然估计)。]

权重衰减参数 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义: 是针对单个样例计算得到的方差代价函数;是整体样本代价函数,它包含权重衰减项。

以上的代价函数经常被用于分类和回归问题。在分类问题中,我们用 y = 0 或 1,来代表两种类型的标签(回想一下,这是因为 sigmoid激活函数的值域为 [0,1]).对于回归问题,我们首先要变换输出值域(也就是y),以保证其范围为 [0,1] .

我们的目标是针对参数 W 和 b 来求其函数 J(W,b) 的最小值。为了求解神经网络,我们需要将每一个参数 初始化为一个很小的、接近零的随机值(比如说,使用正态分布 生成的随机值,其中 设置为 0.01 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 J(W, b) 是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有 i,都会取相同的值,那么对于任何输入 x 都会有:)。随机初始化的目的是使对称失效。

梯度下降法中每一次迭代都按照如下公式对参数 W 和 b 进行更新:

其中 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。

我们首先来讲一下如何使用反向传播算法来计算 ,这两项是单个样例 (x,y) 的代价函数 的偏导数。一旦我们求出该偏导数,就可以推导出整体代价函数 的偏导数:

以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于 而不是 b。

反向传播算法的思路如下:给定一个样例 ,我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括 的输出值。之后,针对第 层的每一个节点 i,我们计算出其“残差” ,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 (第 层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(第 层节点)残差的加权平均值计算 ,这些节点以 作为输入。

反向传播算法直观理解:也就是说首先计算最后一层的误差,然后再一层一层反向求出各层的误差,直到倒数第二层。

下面将给出反向传导算法的细节:

  1. 进行前馈传导计算,利用前向传导公式,得到 直到输出层 的激活值。
  2. 对于第 层(输出层)的每个输出单元 i,我们根据以下公式计算残差:

(注:

  1. 的各个层,第 l 层的第 i 个节点的残差计算方法如下:

注:

将上式中的的关系替换为 l与l+1的关系,就可以得到:

以上逐次从后向前求导的过程即为“反向传导”的本意所在。

4.计算我们需要的偏导数,计算方法如下:

最后,我们用矩阵-向量表示法重写以上算法。
那么,反向传播算法可表示为以下几个步骤:

  1. 进行前馈传导计算,利用前向传导公式,得到 直到输出层 的激活值。
  2. 对输出层(第 层),计算:
  3. 对于 的各层,计算:
  4. 计算最终需要的偏导数值:

注:其实反向传播算法可以看做是正向传播算法的逆过程,下面的图可以更容易理解一些:

0 0
原创粉丝点击