pytorch学习笔记(二):gradient
来源:互联网 发布:linux怎么退出文本模式 编辑:程序博客网 时间:2024/06/05 15:51
gradient
在BP
的时候,pytorch
是将Variable
的梯度放在Variable
对象中的,我们随时都可以使用Variable.grad
得到对应Variable
的grad
。刚创建Variable
的时候,它的grad
属性是初始化为0.0
的。
- 1
- 2
- 3
- 4
- 5
- 6
- 1
- 2
- 3
- 4
- 5
- 6
Variable containing: 0 0 0[torch.FloatTensor of size 3]Variable containing: 0 0 0[torch.FloatTensor of size 3]
从下面这两段代码可以看出,使用d.backward()
求Variable
的梯度的时候,Variable.grad
是累加的即:Variable.grad=Variable.grad+new_grad
- 1
- 2
- 3
- 1
- 2
- 3
Variable containing: 0.3333 0.3333 0.3333[torch.FloatTensor of size 3]
- 1
- 2
- 1
- 2
Variable containing: 0.6667 0.6667 0.6667[torch.FloatTensor of size 3]
既然累加的话,那我们如何置零呢?
- 1
- 2
- 1
- 2
Variable containing: 0 0 0[torch.FloatTensor of size 3]
通过上面的方法,就可以将grad
置零。通过打印出来的信息可以看出,w1.grad
其实是Tensor
。现在可以更清楚的理解一下Variable
与Tensor
之间的关系,上篇博客已经说过,Variable
是Tensor
的一个wrapper
,那么到底是什么样的wrapper
呢?从目前的掌握的知识来看,一个是保存weights
的Tensor
,一个是保存grad
的Variable
。Variable
的一些运算,实际上就是里面的Tensor
的运算。 pytorch
中的所有运算都是基于Tensor
的,Variable
只是一个Wrapper
,Variable
的计算的实质就是里面的Tensor
在计算。Variable
默认代表的是里面存储的Tensor
(weights
)。理解到这,我们就可以对grad
进行随意操作了。
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
这里更新的时候为什么要用Tensor
更新,为什么不直接用Variable
? Variable
更多是用在feedforward
中的,因为feedforward
是需要记住各个Tensor
之间联系的,这样,才能正确的bp
。Tensor
不会记录路径。而且,如果使用Variable
操作的话,就会造成循环图了(猜测)。
torch.optim
如果每个参数的更新都要w1.data.sub_(learning_rate*w1.grad.data)
,那就比较头疼了。还好,pytorch
为我们提供了torch.optim
包,这个包可以简化我们更新参数的操作。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
注意:torch.optim
只用于更新参数,不care梯度的计算。
关于 backword()
backward(gradient=None, retain_variables=False)
参数: gradient (Tensor) – Gradient of the differentiated function w.r.t. the data. Required only if the data has more than one element
- 1
- 1
上面代码应该怎么解释呢?
- pytorch学习笔记(二):gradient
- pytorch学习笔记(二):gradient
- pytorch学习笔记(二):gradient
- pytorch学习笔记(二):gradient
- Pytorch学习笔记(二)
- pytorch学习笔记(1)--pytorch张量
- pytorch学习笔记(二) 其他机制
- Pytorch学习笔记(一)
- Pytorch学习笔记(三)
- Pytorch学习笔记(四)
- Pytorch学习笔记(五)
- Pytorch学习笔记(六)
- RNN学习笔记(二)-Gradient Analysis
- pytorch学习笔记(九):PyTorch结构介绍
- pytorch学习笔记(九):PyTorch结构介绍
- Pytorch学习笔记(一):pytorch的安装-Ubuntu14.04
- pytorch学习笔记(十七):python 端扩展 pytorch
- pytorch学习笔记(十八):C 语言扩展 pytorch
- 关于ListView控件使用的个人总结--以一个简单的新闻客户端开发为例
- Qt实现读取显示obj文件——说明
- 《机器学习实战》第二章:k-近邻算法(2)约会对象分类
- 数据平面、控制平面、管理平面
- 从零开始,学习web前端之js特效
- pytorch学习笔记(二):gradient
- Coverity 静态分析 VS Code Review 代码审查
- C# DataTable数据量大,循环处理数据的时候优化速度
- Spring data jpa
- 调用 cordova 插件 IllegalAccessException
- MFC窗口支持文件拖入
- Linux如何查看进程、杀死进程、启动进程等常用命令
- Linux下G4L硬盘备份方案
- <%@include file="../common/jsp/UsrCheck.jsp"%>