DL-损失函数与优化
来源:互联网 发布:ubuntu 安装net tools 编辑:程序博客网 时间:2024/05/21 07:10
上周对于NN的框架有了整体的把握,这周看了一些网络中的核心问题。中间穿插的看了一些视频,主要还是啃DL这本书,把第七章和第八章看完了(跳过了dropout,个人觉得这个对于现阶段的我有点细节)。第七章是正则化问题,着重理解了一些其中证明的过程;第八章是优化问题,书上的讲法偏顶层设计。以后就是对每个网络的研读了。
正则化
范数惩罚
一种是参数范数惩罚,为了分析权重衰减的一些变化,假设了目标w*,并在w* 附近做了二次近似。
正则化对于最优w的选择内张图一开始我还没看太懂,暂时理解成两个点在牵扯,在下降不明显的位置更容易被正则化衰减掉。L1范数比L2更容易产生稀疏的解。稀疏的特性使得模型不容易过拟合,稀疏编码在网络优化中有着重要地位。作为约束的范数惩罚可以通过构造一个拉格朗日函数来最小化约束方程。跟之前理解不同的地方在于,正则化可以解决欠定问题。数据集与噪声
之前有带过对于数据集的讨论,他这里强调的是数据规模,一个是对于有限数据的“造假”,还有一个是输入中加入随机噪声可以使得网络更加健壮,随后介绍了标签平滑的方法。后面优化问题中也提到了数据集的问题,数据集的增加对于梯度下降的影响是n^1/2的关系,回报是低于线性的,这是针对冗余数据集,与上面并不矛盾。
提前终止
这个也是我没有考虑过的,对于循环提前终止是可以数学解释的。他这里有个转化的公式没有写清楚多余的写一下:
优化
- 梯度是核心
为什么都用一阶导数而不用二阶,二阶对于数据量的要求太大也就牺牲了很多效率。里面很多讨论用到了梯度范数。总的来说梯度的优化的问题是速度(矢量)和局部极小的问题。局部极小的问题又衍生出鞍点、悬崖和梯度爆炸、长期依赖等一系列的问题,其中也有很多问题现在没有解决,作者建议找到良好的初始点或者对于特殊问题特殊解决而不是寻找一个表现好的非局部范围更新的算法。
部分方法
SGD,动量+SGD,动量的这个方法让我想到了自控原理中的积分,最后黏性阻力的缓冲有种类似对于PID积分的改良,这里使用了梯度的历史信息,减小了随机梯度下降的振荡(大自控万岁)。
部分笔记
-大致理解了一下CNN、Computational Graph(计算图)描述、以及w2v的一些基本概念。
近期计划
-准备拿tf做点小事情=。=,快才思枯竭了阿西吧。
- DL-损失函数与优化
- 损失函数优化方法
- 3 损失函数和优化
- 损失函数与风险函数
- 线形回归与损失函数
- 8.2 TensorFlow实现KNN与TensorFlow中的损失函数,优化函数
- Stanford cs231n笔记(二)线性分类器损失函数与最优化
- 罗斯基白话:TensorFlow+实战系列(三)常用损失函数与参数优化
- 神经网络激活函数与损失函数
- 目标函数与损失函数的差别
- 激活函数、损失函数与超参数
- Sigmoid函数与损失函数求导
- 损失函数与梯度提升树
- 逻辑回归:损失函数与梯度下降
- 最优化基础:损失函数可视化、折页损失函数 & 梯度计算
- 【机器学习】【base】 之 目标函数 损失函数 优化算法
- 损失函数
- 损失函数
- vb实验7-找出小于18000的最大素数
- 在阿里云主机下配置Aria2+WEBUI离线下载
- (十一)内部类和包以及垃圾分代回收
- 在网页中动态显示时间
- 2017年浙江工业大学大学生程序设计迎新赛预赛
- DL-损失函数与优化
- 浙工大程序设计迎新赛预赛
- 月下湿吻,游行,私会诺奖得主:斯坦福人都这么玩!
- bzoj1559 [JSOI2009]密码(AC自动机+状压DP)
- 【运维】略谈Raid级别
- dbimage中如何装载jpg文件 2015-02-27 20:44:15| 分类: 电脑 |举报|字号 订阅 下载LOFTER我的照片书 | dbimage中如何装载jpg文
- 设以带头结点的双向循环链表表示的线性表L=(a1,a2,……,an)。
- MongoDB,分组,聚合
- 青春的痛苦