深度学习(参数选择)

来源:互联网 发布:电工鞋 绝缘鞋 知乎 编辑:程序博客网 时间:2024/06/15 13:23
  1. 参数处理
    各种参数之间的重要性是有差别的。Alpha1,beta,beta1,beta2,epsilon.(0.9,0.999,10^-8.)hidden units, layers, learning-rate decay3, mini-batch2
    网格法一ban不太好,try random values ,(我们探究了更多的值)
    Coarse to fine (从粗糙到精细)
  2. 为超参数选择合适的范围
    参数alpha:1。随机的均匀取值
    2。进行一个log,得到一个范围,在这个范围内随机取值
    Beta:1-beta (0.1,0.0001) beta越接近1,取值需要更加的精细。
    3.超参数的实践:pandas, caviar
    Babysitting one model 没有足够机器,只有一个模型。每天都在修改
    Training many models in parallel 选择最好的
  3. 正则化网络的激活函数
    在每一个隐层进行一个归一化加速训练。不只是输入。
    我也许不想隐层的 均值和方差分别是0和1。
    这里写图片描述

  4. batch-norm
    其实,在使用batch-norm可以去掉参数b,因为最后还是要减去的。用beta 来控制,这是一个控制参数,控制均值。
    各个维度:
    A:(n_l,m) Z:(n_l,m) beta:(n_l,m)

  5. 为什么 batch-norm表现的很好?

  6. 除了让数据变的好算
  7. 归一化减少了让数值改变的情况发生,使这些数值更加稳定,神经网络之后的层就有了更好的基础。。 可以想象一个,每层的分布相同,使得数据稳定,使得 每一层的学习 稍微的 更加的独立,而不是很容易的受到前一层参数的影响。
  8. 轻微的正则化作用:在mini-batch算的均值和方差有噪音,那么我经过缩放的时候也有噪音,每一层上加了噪音。 使用了较大的size,就减少了噪音,减少了正则化的效果
    不要把batch-norm当做规则,把他当做归一化隐层单元激活值,并加速学习的方式

  9. 测试上利用:
    样本上的均值,方差 ,数量比较小,估计。
    每一层怎么办?
    利用多个mini-batch算出的平均值,指数加权平均

  10. Softmax以及训练
    用于多分类

Hardmax.
C=2 softmax 和logistic 一样

损失函数的重定义:
这里写图片描述
找到实际类别,差不多。。

深度学习框架:易于编程,运行速度 是否真的开发(开源以及很好的管理,长时间开源)

Placeholder 稍后会为损失函数提供数据
Session.run(train,feed_dic={x:coefficients})

原创粉丝点击