激活函数总结(一)

来源：互联网发布：批处理软件编辑：程序博客网时间：2024/06/01 09:33

Introduce

激活函数可以理解为非线性映射，增加网络的复杂性。为什么这么说？
如图所示：
这里写图片描述
第一部分是对输入的加权求和的过程，是一个线性化表示。如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话，激活函数给神经元引入了非线性因素，可以证明可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

都有哪些激活函数？有什么特性？为什么不能统一？

如图：
Sigmoid
Sigmoid:计算量大，训练慢，存在左、右两端的“软饱和区”，导致梯度消失！输出值均大于0，导致多层神经网络的输入均值不为0，偏移现象！
Tanh和Relu
Tanh：计算量大，存在梯度消失现象，不存在偏移现象
Relu：计算量小，训练快，存在“硬饱和区”使得神经元死亡——权值无法更新，使得网络稀疏，避免过拟合！也存在偏移现象！改进“硬饱和区”：Prelu函数和Random Relu函数。在卷积神经网络中：
这里写图片描述
Softmax用于多分类
Softmax：(软最大的含义在于取得最大值的概率最大)，用于多分类，返回每一类的概率类与类之间是互斥的！计算简单，使用交叉熵表示损失函数：与标准样本距离！

总结：

不同的激活函数具有不同数学性质，导致表达能力不一样，泛化能力，训练效果都不一样！需要实践中尝试才能选择最佳激活函数，具体问题具体分析！

参考文章：

1、深度探讨激活函数区别
2、常用激活函数的简介
3、Softmax 函数的特点和作用是什么
4、为什么神经网络中激活函数Relu优于Sigmoid
5、Relu和其改进版的比较

阅读全文

0 0