DL-损失函数与优化

来源：互联网发布：ubuntu 安装net tools 编辑：程序博客网时间：2024/05/21 07:10

上周对于NN的框架有了整体的把握，这周看了一些网络中的核心问题。中间穿插的看了一些视频，主要还是啃DL这本书，把第七章和第八章看完了（跳过了dropout，个人觉得这个对于现阶段的我有点细节）。第七章是正则化问题，着重理解了一些其中证明的过程；第八章是优化问题，书上的讲法偏顶层设计。以后就是对每个网络的研读了。

正则化

范数惩罚

一种是参数范数惩罚，为了分析权重衰减的一些变化，假设了目标w*，并在w* 附近做了二次近似。
正则化对于最优w的选择内张图一开始我还没看太懂，暂时理解成两个点在牵扯，在下降不明显的位置更容易被正则化衰减掉。L1范数比L2更容易产生稀疏的解。稀疏的特性使得模型不容易过拟合，稀疏编码在网络优化中有着重要地位。作为约束的范数惩罚可以通过构造一个拉格朗日函数来最小化约束方程。跟之前理解不同的地方在于，正则化可以解决欠定问题。
数据集与噪声

之前有带过对于数据集的讨论，他这里强调的是数据规模，一个是对于有限数据的“造假”，还有一个是输入中加入随机噪声可以使得网络更加健壮，随后介绍了标签平滑的方法。后面优化问题中也提到了数据集的问题，数据集的增加对于梯度下降的影响是n^1/2的关系，回报是低于线性的，这是针对冗余数据集，与上面并不矛盾。
提前终止

这个也是我没有考虑过的，对于循环提前终止是可以数学解释的。他这里有个转化的公式没有写清楚多余的写一下：

优化

梯度是核心

为什么都用一阶导数而不用二阶，二阶对于数据量的要求太大也就牺牲了很多效率。里面很多讨论用到了梯度范数。总的来说梯度的优化的问题是速度（矢量）和局部极小的问题。局部极小的问题又衍生出鞍点、悬崖和梯度爆炸、长期依赖等一系列的问题，其中也有很多问题现在没有解决，作者建议找到良好的初始点或者对于特殊问题特殊解决而不是寻找一个表现好的非局部范围更新的算法。
部分方法
SGD，动量+SGD，动量的这个方法让我想到了自控原理中的积分，最后黏性阻力的缓冲有种类似对于PID积分的改良，这里使用了梯度的历史信息，减小了随机梯度下降的振荡（大自控万岁）。

部分笔记

-大致理解了一下CNN、Computational Graph(计算图)描述、以及w2v的一些基本概念。
这里写图片描述

近期计划

-准备拿tf做点小事情=。=，快才思枯竭了阿西吧。

阅读全文

0 0