程序博客网 > 安全风险评估矩阵

Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization总结

来源：互联网发布：安全风险评估矩阵编辑：程序博客网时间：2024/06/05 02:47

这门课主要讲解了神经网络中常用的一些调试、优化方法

训练集、开发集、测试集

训练集用来训练网络参数

开发集用来调整网络各个超参数

测试集用来评估网络性能

各部分比例分配如下：

数据量

训练集

开发集

测试集

1,000-10,000

60%

20%

20%

70%

30%

1,000,000

98%

1%

1%

>1,000,000

99.5%

0.25%

0.25%

0.4%

0.1%

模型偏差、方差

偏差

方差

解释

模型预测能力不足（前拟合），表现为训练误差较大

模型泛化能力不足（过拟合），表现为测试误差较大

解决方法

1. 更深、更宽的网络

2. 训练更长时间

3. 更好的优化方法

4. 更优的网络结构

1. 更多的数据

2. 正则化

3. 更优的网络结构

（减小偏差：5.更优的超参数）

正则化

L0正则化：L0范数指向量中非0元素的个数，可以让权重矩阵W更稀疏，但是因为难于优化，一般用L1替代

L1正则化：L1范数指向量中各元素绝对值的和。

L2正则化：L2范数指向量中各元素平方和的二次方根，让权重更加平滑。

$J=\frac{1}{m}\sum_{i=1}^{m}l_{i}+\frac{\lambda }{2m}\sum_{l=1}^{L}\left \| w^{[l]} \right \|_{2}^{2}$

$dw^{[l]}=(bp)+\frac{\lambda }{m}w^{[l]}$

$w^{[l]}=w^{[l]}-\alpha dw^{[l]}=w^{[l]}-\alpha [(bp)+\frac{\lambda }{m}w^{[l]}]=(1-\frac{\alpha \lambda }{m})w^{[l]}-\alpha (bp)$

L2正则化每次更新时，w都变得更小，所以L2正则化也叫做权重衰减

Dropout正则化：一定要在激活后除以keep-prob，确保该层的期望不变。测试阶段不可用

减小方差的其他方法：

data augmentation：对于图像有翻转、裁剪、扭曲、旋转等操作

early stopping：在验证误差开始上升时，停止训练

梯度消失和梯度爆炸

网络过深时产生的现象

解决方法：

1.权重初始化时，让权重满足方差为 $\sqrt{\frac{2}{n^{[l-1]}}}$ (relu)或 $\sqrt{\frac{1}{n^{[l-1]}}}$ （Xavier, tanh）或 $\sqrt{\frac{2}{n^{[l-1]}n^{[l]}}}$ 的高斯分布，其中 $n^{[l]}$ 表示第l层的输入数据的维度

2.用relu替代sigmoid和tanh

3.clip gradients

4.类似resnet中的shortcut connection

加速训练的方法

1.对输入数据进行归一化处理，即减去平均值，除以方差

2.mini-batch梯度下降（一般取64,128,256,512,1024）和随机梯度下降

3.Momentum梯度下降：使得系统有机会跨过局部最优点

$v_{dw}=\beta v_{dw}+(1-\beta )dw$ 此公式为指数加权平均，偏差修正为 $\frac{v_{dw}}{1-\beta ^{t}}$

$w=w-\alpha v_{dw}$

4.Adagrad：由于一直累加梯度的平方，每个元素的学习率一直在降低或不变。

$S_{dw}=S_{dw}+dw^{2}$

$w=w- \frac{\alpha}{\sqrt{S_{dw}}}dw$

5.RMSprop：使用指数加权平均对Adagrad进行了改进，学习率可以根据情况而不同

$S_{dw}=\beta S_{dw}+(1-\beta )dw^{2}$

$w=w- \frac{\alpha}{\sqrt{S_{dw}}}dw$

6.Adadelta：没有学习率参数

$S_{dw}=\beta S_{dw}+(1-\beta )dw^{2}$

${dw}'=\frac{\sqrt{\Delta x+\varepsilon }}{\sqrt{S_{dw}+\varepsilon }}*dw$

$\Delta x=\beta \Delta x+(1-\beta ){dw}'^{2}$

$w=w-{dw}'$

7.Adam：组合了Momentum和RMSprop

$v_{dw}=\beta _{1}v_{dw}+(1-\beta _{1})dw$

$S_{dw}=\beta _{2}S_{dw}+(1-\beta _{2})dw^{2}$

$w=w-\alpha \frac{v_{dw}}{\sqrt{S_{dw}}}$ 一般的，超参数取值为 $\beta _{1}=0.9,\beta _{2}=0.999,\varepsilon =10^{-8}$

8.学习率下降

$\alpha =\frac{1}{1+decayrate*epoch}\alpha _{0}$

$\alpha =\beta ^{epoch}*\alpha _{0}, \beta <1$ 指数衰减

$\alpha =\frac{\beta }{\sqrt{epoch}}*\alpha _{0}$ or $\alpha =\frac{\beta }{\sqrt{t}}*\alpha _{0}$

离散的学习率下降，如epoch大于某个值时，学习率为多少

超参数调试

优先级：

$\alpha$

$\beta (Momentum,=0.9)$ ，hidden units，mini-batch

layers，learning rate decay

$\beta _{1}=0.9,\beta _{2}=0.999,\varepsilon =10^{-8}$

搜索超参数时，随机取值，不要使用网格似的取值方法。注意线性取值和对数线性取值。根据训练速度，选择是小心维护一次训练，还是开启多个训练

Batch normalization

一般在激活函数之前进行batch normalization

$\mu =\frac{1}{m}\sum_{i=1}^{m}z^{(i)}$

$\sigma ^{2}=\frac{1}{m}\sum_{i=1}^{m}(z^{(i)}-\mu )^{2}$

$z_{norm}^{(i)}=\frac{z^{(i)}-\mu }{\sqrt{\sigma ^{2}+\varepsilon }}$

$\widetilde{z}^{(i)}=\gamma z_{norm}^{(i)}+\beta$

注意，一个batch normalization有2个参数需要学习，4个参数需要保存

上一篇：Neural Networks and Deep Learning总结

下一篇：Structuring Machine Learning Projects总结

阅读全文

0 0

安全风险评估矩阵

安全风险评估矩阵

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子中医中药健康网医行天下医行大唐医行都市嫡女惊华医行天下医行天下电子书医痴妻主行素狂嫡女京华医行天下免费阅读都市妖孽医圣王勿留行医行大道五狗子医行天下曾经的蚂蚁名门医女希行免费阅读华医通app 华医通预约挂号华南区包括哪些省华南区天河区华南师范大学华南师范大学天河区龙岗区平湖华南城西安华南城华南城在哪里合肥华南城哈尔滨华南城华南家具城华南钢铁城重庆华南城在哪里华南城购物中心合肥华南城紫荆名都合肥华南城商贸郑州华南城商铺现状西安华南城招聘信息华南城车展华南皮草城深圳平湖华南城招聘华南师范大学大学城校区地址南昌华南城房价南昌华南城华南城房价合肥华南城房价郑州华南城房价重庆华南城