深度学习（参数选择）

来源：互联网发布：电工鞋绝缘鞋知乎编辑：程序博客网时间：2024/06/15 13:23

参数处理
各种参数之间的重要性是有差别的。Alpha1，beta,beta1,beta2,epsilon.(0.9,0.999,10^-8.)hidden units, layers, learning-rate decay3, mini-batch2
网格法一ban不太好，try random values ,（我们探究了更多的值）
Coarse to fine （从粗糙到精细）
为超参数选择合适的范围
参数alpha:1。随机的均匀取值
2。进行一个log，得到一个范围，在这个范围内随机取值
Beta：1-beta (0.1,0.0001) beta越接近1，取值需要更加的精细。
3.超参数的实践：pandas， caviar
Babysitting one model 没有足够机器，只有一个模型。每天都在修改
Training many models in parallel 选择最好的
正则化网络的激活函数
在每一个隐层进行一个归一化加速训练。不只是输入。
我也许不想隐层的均值和方差分别是0和1。
batch-norm
其实，在使用batch-norm可以去掉参数b，因为最后还是要减去的。用beta 来控制，这是一个控制参数，控制均值。
各个维度：
A:(n_l,m) Z:(n_l,m) beta:(n_l,m)
为什么 batch-norm表现的很好？
除了让数据变的好算
归一化减少了让数值改变的情况发生，使这些数值更加稳定，神经网络之后的层就有了更好的基础。。可以想象一个，每层的分布相同，使得数据稳定，使得每一层的学习稍微的更加的独立，而不是很容易的受到前一层参数的影响。
轻微的正则化作用：在mini-batch算的均值和方差有噪音，那么我经过缩放的时候也有噪音，每一层上加了噪音。使用了较大的size,就减少了噪音，减少了正则化的效果
不要把batch-norm当做规则，把他当做归一化隐层单元激活值，并加速学习的方式
测试上利用：
样本上的均值，方差 ,数量比较小，估计。
每一层怎么办？
利用多个mini-batch算出的平均值，指数加权平均
Softmax以及训练
用于多分类

Hardmax.
C=2 softmax 和logistic 一样

损失函数的重定义：
这里写图片描述
找到实际类别，差不多。。

深度学习框架：易于编程，运行速度是否真的开发（开源以及很好的管理，长时间开源）

Placeholder 稍后会为损失函数提供数据
Session.run(train,feed_dic={x:coefficients})

阅读全文

0 0