激活函数总结(一)

来源:互联网 发布:批处理软件 编辑:程序博客网 时间:2024/06/01 09:33

Introduce

激活函数可以理解为非线性映射,增加网络的复杂性。为什么这么说?
如图所示:
这里写图片描述
第一部分是对输入的加权求和的过程,是一个线性化表示。如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。如果使用的话,激活函数给神经元引入了非线性因素,可以证明可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。

都有哪些激活函数?有什么特性?为什么不能统一?

如图:
Sigmoid
Sigmoid:计算量大,训练慢,存在左、右两端的“软饱和区”,导致梯度消失!输出值均大于0,导致多层神经网络的输入均值不为0,偏移现象!
Tanh和Relu
Tanh:计算量大,存在梯度消失现象,不存在偏移现象
Relu:计算量小,训练快,存在“硬饱和区”使得神经元死亡——权值无法更新,使得网络稀疏,避免过拟合!也存在偏移现象!改进“硬饱和区”:Prelu函数和Random Relu函数。在卷积神经网络中:
这里写图片描述
Softmax用于多分类
Softmax:(软最大的含义在于取得最大值的概率最大),用于多分类,返回每一类的概率类与类之间是互斥的!计算简单,使用交叉熵表示损失函数:与标准样本距离!

总结:

不同的激活函数具有不同数学性质,导致表达能力不一样,泛化能力,训练效果都不一样!需要实践中尝试才能选择最佳激活函数,具体问题具体分析!

参考文章:

1、深度探讨激活函数区别
2、常用激活函数的简介
3、Softmax 函数的特点和作用是什么
4、为什么神经网络中激活函数Relu优于Sigmoid
5、Relu和其改进版的比较

原创粉丝点击