Continuous control with Deep Reinforcement Learning与DDPG(Deep Deterministic Policy Gradient)的理解

来源:互联网 发布:js 给div中p标签赋值 编辑:程序博客网 时间:2024/05/20 14:41

Actor-Critic算法

Actor-Critic算法是一种TD method。结合了value-based和policy-based方法。policy网络是actor(行动者),输出动作(action-selection)。value网络是critic(评价者),用来评价actor网络所选动作的好坏(action value estimated),并生成TD_error信号同时指导actor网络critic网络的更新。下图为Actor-Critic算法的一个架构图,DDPG就是这一类算法。(参见参看文献4)


这里写图片描述
Actor-Critic算法架构图

DDPG算法

具体算法伪代码如下:


这里写图片描述
DDPG算法

参考文献:

  1. Continuous control with Deep Reinforcement Learning论文原文

  2. Deterministic Policy Gradient Algorithms论文原文

  3. Paper Reading 3:Continuous control with Deep Reinforcement Learning

  4. 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

    1. Deep Deterministic Policy Gradients in TensorFlow
阅读全文
0 0
原创粉丝点击