程序博客网 > 大学一个人知乎

梯度爆炸的解决办法：clip gradient

来源：互联网发布：大学一个人知乎编辑：程序博客网时间：2024/05/19 16:35

1.梯度爆炸的影响

在一个只有一个隐藏节点的网络中，损失函数和权值w偏置b构成error surface，其中有一堵墙，如下所示

这里写图片描述

损失函数每次迭代都是每次一小步，但是当遇到这堵墙时，在墙上的某点计算梯度，梯度会瞬间增大，指向某处不理想的位置。如果我们使用缩放，可以把误导控制在可接受范围内，如虚线箭头所示

2.解决梯度爆炸问题的方法

通常会使用一种叫”clip gradients “的方法. 它能有效地权重控制在一定范围之内.
算法步骤如下。

首先设置一个梯度阈值：clip_gradient
在后向传播中求出各参数的梯度，这里我们不直接使用梯度进去参数更新，我们求这些梯度的l2范数
然后比较梯度的l2范数||g||与clip_gradient的大小
如果前者大，求缩放因子clip_gradient/||g||,　由缩放因子可以看出梯度越大，则缩放因子越小，这样便很好地控制了梯度的范围
最后将梯度乘上缩放因子便得到最后所需的梯度

3. 有无clip_gradient在GRU模型中的结果比较

无clip_gradient
　可以很清楚地发现在2000次迭代出发生了梯度爆炸，最终影响了训练的效果。
　
有clip_gradient
可以发现clip_gradient在前期有效了控制了梯度爆炸的影响，使得最终的loss能下降到满意的结果

阅读全文

0 0

大学一个人知乎

大学一个人知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子思连康双歧杆菌四联活菌片四旦双冰还珠四龙戏双珠四帝国四骑士双暗影阵容四虚空四斗士四游侠双极地双羽四足双歧杆菌四联活菌双拳不敌四手双歧杆菌四联活菌片说明书四双神童6hst镇站资料单双四四叔四叔求放过嫁给四叔当填房四叔求放过免费全文阅读四叔月上无风四叔慢一点哥谭第四季李哥戏耍四人四哥四哥是谁东莞四哥顾惜和四哥结局270章穿书后我有四个哥哥谭镇第四季哥谭市第四季老s哥四月四哥边境县城在线播放四哥赶海东莞四哥在线哥谭第四季剧情东莞四哥边境县城龙四哥哥谭第四季在线东莞四哥边境县城在线播放哥是谁路飞四档打明哥哪一集气质垄断者四哥四哥是薇娅的弟弟吗天安社四哥犯什么事了哥谭第四季下载