Continuous control with Deep Reinforcement Learning与DDPG（Deep Deterministic Policy Gradient）的理解

来源：互联网发布：js 给div中p标签赋值编辑：程序博客网时间：2024/05/20 14:41

Actor-Critic算法

Actor-Critic算法是一种TD method。结合了value-based和policy-based方法。policy网络是actor（行动者），输出动作（action-selection）。value网络是critic（评价者），用来评价actor网络所选动作的好坏（action value estimated），并生成TD_error信号同时指导actor网络critic网络的更新。下图为Actor-Critic算法的一个架构图，DDPG就是这一类算法。（参见参看文献4）

Actor-Critic算法架构图

DDPG算法

具体算法伪代码如下：

DDPG算法

参考文献：

Continuous control with Deep Reinforcement Learning论文原文
Deterministic Policy Gradient Algorithms论文原文
Paper Reading 3:Continuous control with Deep Reinforcement Learning
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
1. Deep Deterministic Policy Gradients in TensorFlow

阅读全文

0 0