深度学习(参数选择)
来源:互联网 发布:电工鞋 绝缘鞋 知乎 编辑:程序博客网 时间:2024/06/15 13:23
- 参数处理
各种参数之间的重要性是有差别的。Alpha1,beta,beta1,beta2,epsilon.(0.9,0.999,10^-8.)hidden units, layers, learning-rate decay3, mini-batch2
网格法一ban不太好,try random values ,(我们探究了更多的值)
Coarse to fine (从粗糙到精细) - 为超参数选择合适的范围
参数alpha:1。随机的均匀取值
2。进行一个log,得到一个范围,在这个范围内随机取值
Beta:1-beta (0.1,0.0001) beta越接近1,取值需要更加的精细。
3.超参数的实践:pandas, caviar
Babysitting one model 没有足够机器,只有一个模型。每天都在修改
Training many models in parallel 选择最好的 正则化网络的激活函数
在每一个隐层进行一个归一化加速训练。不只是输入。
我也许不想隐层的 均值和方差分别是0和1。batch-norm
其实,在使用batch-norm可以去掉参数b,因为最后还是要减去的。用beta 来控制,这是一个控制参数,控制均值。
各个维度:
A:(n_l,m) Z:(n_l,m) beta:(n_l,m)为什么 batch-norm表现的很好?
- 除了让数据变的好算
- 归一化减少了让数值改变的情况发生,使这些数值更加稳定,神经网络之后的层就有了更好的基础。。 可以想象一个,每层的分布相同,使得数据稳定,使得 每一层的学习 稍微的 更加的独立,而不是很容易的受到前一层参数的影响。
轻微的正则化作用:在mini-batch算的均值和方差有噪音,那么我经过缩放的时候也有噪音,每一层上加了噪音。 使用了较大的size,就减少了噪音,减少了正则化的效果
不要把batch-norm当做规则,把他当做归一化隐层单元激活值,并加速学习的方式测试上利用:
样本上的均值,方差 ,数量比较小,估计。
每一层怎么办?
利用多个mini-batch算出的平均值,指数加权平均Softmax以及训练
用于多分类
Hardmax.
C=2 softmax 和logistic 一样
损失函数的重定义:
找到实际类别,差不多。。
深度学习框架:易于编程,运行速度 是否真的开发(开源以及很好的管理,长时间开源)
Placeholder 稍后会为损失函数提供数据
Session.run(train,feed_dic={x:coefficients})
阅读全文
0 0
- 深度学习(参数选择)
- 深度学习机器选择
- 深度学习 调参数
- 深度学习参数技巧
- 如何选择深度学习模型
- 深度学习如何选择模型
- 机器学习(6)——模型选择、参数选择
- 深度学习--LeNet5参数理解
- 深度学习参数初始化策略
- <深度学习系列>深度学习中激活函数的选择
- DEEP COMPRESSION(深度学习网络参数压缩)
- 神经网络的层参数维度(14)---《深度学习》
- 卷积神经网络的参数维度(15)---《深度学习》
- 针对深度学习的GPU芯片选择
- 怎样为深度学习系统选择GPU
- 如何选择深度学习优化器
- 如何选择深度学习优化器
- 如何选择深度学习优化器
- EasyPlayerPro(Windows)开发系列之解决ffmpeg接口调用卡住的问题
- C语言中宏定义方法
- 校内的hu测(10.5)
- 动态规划:01背包
- 深入hibernate的三种状态
- 深度学习(参数选择)
- win7相关问题解决
- S
- leetcode 005 Longest Palindromic Substring
- Web Service (006---使用eclipse端口拦截器[TCP/IP Monitor]监视WebService请求)
- 开发流媒体服务器
- MySQL中游标的使用
- QT Layout中增删widget与切换界面
- 两表关联,取B表满足条件的第一条数据