吴恩达深度学习课程第二部分笔记要点

来源:互联网 发布:linux卸载软件 yum 编辑:程序博客网 时间:2024/06/05 15:34


1-通过迭加计算训练集上的error来判断是否high bias,利用验证集上的error判断是否high variance;


2-测试阶段不用Dropout层;Dropout层是用于预防overfitting的正则化方法;

代价函数J对于Dropout层未明确定义,为检查梯度是否一直下降,需关闭Dropout层或将参数设为1;


3-gradient check只用于debug,不与Dropout同时使用;


4-mini-batch gradient descent适合样本数2000以上的数据集;

batch size 一般在64-512之间,最好为2的次方(运行速度更快);

使用mini-batch后画出的loss曲线会有小波动,并不是一直在严格下降;


5-Gradient Descent with Momentum 比纯梯度下降效果更好,beta通常取0.9;


6-RMSprop=Root Mean Square Prop, hyperparametres := alpha, beta1, epsilon; 


7-Adam(Adaptive Moment Estimation):= RMSprop + Momentum, 

hyperparametres := alpha, beta1=0.9, beta2=0.999, epsilon=10e-8;


8-超参数重要性:

学习速率alpha >  momentum(0.9), #hidden units, mini-batch size  > #layers, learning rate decay > Adam(beta1=0.9, beta2=0.999, epsilon=10e-8);


9-超参数数量较少时,随机取值组合法,不要在网格中均匀取值;逐渐缩小范围,由粗略搜索到精细搜索;


10-学习速率按对数坐标系均匀取值:0.0001, 0.001, 0.01,...;


11-指数平均值beta按(1-beta)对数轴均匀取值:0.9, 0.99, 0.999,...;


12-超参数训练实践:一次训练一个模型并加以优化-vs-同时训练好几个模型并比较优劣;


13-Batch Normalization: 在应用激活函数前对隐藏层输出进行归一化操作,以加速训练。


阅读全文
0 0
原创粉丝点击