策略梯度(Policy Gradients)的理解

来源:互联网 发布:pic单片机开发环境iar 编辑:程序博客网 时间:2024/06/17 16:47

理论分析请参见参考文献1、2、6、7;算法思想及伪代码参见参考文献2,具体见下图:


这里写图片描述

policy gradient 的最基本方法-REINFORCE 方法

然后根据理论分析了莫烦的《Policy Gradients 算法更新 (Tensorflow)》和《Policy Gradients 思维决策 (Tensorflow)》,有了进一步理解。

参考文献7、8可能有用,先留着

参考文献:

1.Tutorial: Deep Reinforcement Learning P45-48
2.Lecture 7 Policy Gradient Methods P21
3.Deep Reinforcement Learning: Pong from Pixels
4.深度强化学习:基于像素的乒乓游戏
5.基于Policy Gradient实现CartPole
6.reinforcement learning,增强学习:Policy Gradient
7.深度增强学习David Silver(七)——Policy Gradient
8.基于tensorflow的最简单的强化学习入门-part2: Policy-based Agents
9.实现强化学习策略网络

阅读全文
0 0
原创粉丝点击