深度学习----BP+SGD+激活函数+代价函数+基本问题处理思路

来源：互联网发布：淘宝上的哥弟是真的吗编辑：程序博客网时间：2024/06/01 13:22

原Blog：http://blog.csdn.net/MyArrow/article/details/51396654?locationNum=10&fps=1

0. 学习模型评价标准

1）学习速度

2）推广能力/泛化能力/Generalize

1. 反向传播算法计算全过程

目标：计算出权重和偏差的梯度（通过反向传播误差的方式）。

下例中，其激活函数为Sigmoid函数：

2. 随机梯度下降法计算全过程

目标：更新权重和偏差。

下例中，其激活函数为Sigmoid函数：

3. 激活函数

3.1 为什么需要激活函数？

如果不用激活函数，每一层的输出都是上一层的线性组合，从而导致整个神经网络的输出为神经网络输入的线性组合，无法逼近任意函数。

激活函数有以下特性：

1）非线性

2）可微性：当优化方法是基于梯度时，此性质是必须的

3）单调性：当激活函数是单调时，可保证单层网络是凸函数

4）输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限时，模型的训练会更加高效，不过在这种情况小，一般需要更小的Learning Rate.

3.2 常见激活函数汇总

3.3 Sigmoid激活函数

3.3.1 Sigmoid激活函数

1）优点：

- 它可把输入的连续实值压缩到[0,1]之间

- 可解释为神经元饱和的“firing rate”

2）缺点：

- 饱和的神经元导致梯度消失

输入非常大或非常小时，其梯度接近于0

- 指数运算计算量大

- Sigmoid的输出不是以0为均值

产生的一个结果就是：如果数据进入神经元的时候是正的(e.g. x>0 elementwise in f=wTx+b)，那么 w 计算出的梯度也会始终都是正的。当然了，如果你是按batch去训练，那么那个batch可能得到不同的信号，所以这个问题还是可以缓解一下的。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的 kill gradients 问题相比还是要好很多的。

3.3.2 Sigmoid函数图形

3.3.3 Sigmoid函数导数图形

3.4 Softmax激活函数

Softmax的每个神经元的输出都为正，且它们的和为1。所以Softmax层的输出可以看作一个概率分布。

与Softmax相比，Sigmoid层的输出不能形成一个概率分布，且没有一个直观、简单的解释。

3.5 tanh激活函数

1）优点：

- 与Sigmoid相比，tanh是0均值的。

- 理论和实验证据表明tanh有时比Sigmoid性能更好。

- tanh(-z)=-tanh(z)

2）缺点：

- 饱和的神经元导致梯度消失

输入非常大或非常小时，其梯度接近于0

3.6 校正线性单元(Rectified Linear Unit：ReLU)

f(x) = max(0, wx+b)

1）优点：
相比于 sigmoid/tanh，有如下优点：

- 计算高效：采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用ReLU激活函数，整个过程的计算量节省很多。

- 没有饱和及梯度消失问题：对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失，从而无法完成深层网络的训练。

- ReLU会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

- 收敛速度比sigmoid/tanh快6倍

2）缺点：

- 当然 ReLU 也有缺点，就是训练的时候很”脆弱”，很容易就”die”了. 什么意思呢？

举个例子：一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了。如果这个情况发生了，那么这个神经元的梯度就永远都会是0.实际操作中，如果你的Learning Rate 很大，那么很有可能你网络中的40%的神经元都”dead”了。
当然，如果你设置了一个合适的较小的Learning Rate，这个问题发生的情况其实也不会太频繁。

- 当z<0时，梯度也消失了

- 非零居中输出

3.7 Leaky-ReLU、P-ReLU、R-ReLU

1）Leaky ReLU：

就是用来解决“Die ReLU”的，其定义如下：

α 是一个很小的常数(如0.01)。这样，即修正了数据分布，又保留了一些负轴的值，使得负轴信息不会全部丢失。关于Leaky ReLU 的效果，众说纷纭，没有清晰的定论。有些人做了实验发现 Leaky ReLU 表现的很好；有些实验则证明并不是这样。

优点：

  - 不会饱和
- 计算高效
  - 收敛速度快
  - 不会死

2）Parametric ReLU：

对于 Leaky ReLU 中的α，通常都是通过先验知识人工赋值的。而P-ReLU中，α 是一个变量，需要被学习。
然而可以观察到，损失函数对α的导数我们是可以求得的，可不可以将它作为一个参数进行训练呢？
Kaiming He的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》指出，不仅可以训练，而且效果更好。

公式非常简单，反向传播至未激活前的神经元的公式就不写了，很容易就能得到。对α的导数如下：

δ y i δ α = 0 ， (i f y i > 0) ， e l s e = y i

原文说使用了Parametric ReLU后，最终效果比不用提高了1.03%.

3）Randomized ReLU：
Randomized Leaky ReLU 是 leaky ReLU 的random 版本（α 是random的）.
它首次试在 kaggle 的NDSB 比赛中被提出的。核心思想就是，在训练过程中，α 是从一个高斯分布

U(l,u) 中随机出来的，然后再测试过程中进行修正（有点像dropout的用法）。

数学表示如下：

此处输入图片的描述

在测试阶段，把训练过程中所有的 αij 取个平均值。NDSB 冠军的 α 是从 U(3,8) 中随机出来的。那么，在测试阶段，激活函数就是就是：

4) Exponential Linear Units (ELU)

1）优点：

- 所有ReLU的优点
- 不会死
- 输出接近0均值
2）缺点：
- 计算量大,需要指数运算

3.8 Maxout

Maxout定义如下：

Maxout其实是改变了神经元的形式，它将每个神经元由原来一次训练一组参数扩展为同时训练多组参数，然后选择激活值最大的作为下一层的激活值，比如同时训练3组参数：

可以看出ReLu为Maxout同时训练两组参数且w2,b2取0时的情形，因此maxout拥有ReLu的所有优点同时避免了神经元“死亡”的现象；但是，由于需要多训练了几组参数，网络的效率也大大降低了。

Maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合，而Maxout又是取k个“隐隐含层”节点的最大值，这些”隐隐含层"节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（分段的个数与k值有关）。论文中的图1如下（它表达的意思就是可以拟合任意凸函数，当然也包括了ReLU了）：

3.9 激活函数表

3.10 Conv&Maxout&NIN

NIN: Network in Network

Maxout和NIN都是对传统conv+relu的改进；Maxout想表明它能够拟合任何凸函数，也就能够拟合任何的激活函数（默认了激活函数都是凸的）；NIN想表明它不仅能够拟合任何凸函数，而且能够拟合任何函数，因为它本质上可以说是一个小型的全连接神经网络。

3.10.1 工作流程

1）常规卷积层：conv→relu
- conv： conv_out=∑(x·w)
- ReLU： y=max(0， conv_out)

2）Maxout：several conv(full)→max
- several conv (full): conv_out1 = x·w_1, conv_out2 = x·w_2, …
- max： y = max(conv_out1, conv_out2, …)
3）NIN： conv→relu→conv(1x1)→relu
- several conv (full): conv_out1 = x·w_1, conv_out2 = x·w_2, …
- relu: relu_out1 = max(0, conv_out1), relu_out2 = max(0, conv_out2), …
- conv(1x1): conv_1x1_out = [relu_out1, relu_out2, …]·w_1x1
- relu: y = max(0, conv_1x1_out)

3.10.2 实例说明

假设现在有一个3x3的输入，用一个9维的向量x代表，卷积核大小也是3x3，也9维的向量w代表。
1）常规卷积层：直接x和w求卷积，然后relu一下就好了。

2）Maxout：有k个的3x3的w（这里的k是自由设定的），分别卷积得到k个1x1的输出，然后对这k个输入求最大值
3）NIN：有k个3x3的w（这里的k也是自由设定的），分别卷积得到k个1x1的输出，然后对它们都进行ReLU，然后再次对它们进行卷积，结果再ReLU。（这个过程，等效于一个小型的全连接网络）