深度强化学习中DDPG算法

来源：互联网发布：淘宝网用户体验编辑：程序博客网时间：2024/06/06 01:48

深度强化学习总的来说都是以强化学习为骨架，用神经网络代替耗内存很高的组件，加速计算。

DDPG算法是的Actor-Critic算法和神经网络的集合，就是actor部分和critic部分都用神经网络来表示。

重要的是两个神经网络怎么优化。

actor部分（就是策略函数）：a = π （s，u）
critic部分（就是Q函数）： Q（s,a,w）
怎么求策略梯度呢？策略梯度就是Q对u 的梯度，先Q对a求导，然后a对u求导；
求critic部分的梯度就很简单了，target Q值是清楚的，直接对求梯度即可，和Double DQN一样，采用分离的w 和 w_防止震荡。

阅读全文

0 0

深度强化学习中DDPG算法
深度强化学习实战：Tensorflow实现DDPG
深度强化学习——连续动作控制DDPG、NAF
深度强化学习——连续动作控制DDPG、NAF
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
强化学习系列<7>Deep Deterministic Policy Gradient (DDPG)
深度强化学习中的DQN系列算法
强化学习,深度学习,深度强化学习
深度强化学习初探
揭秘深度强化学习
深度强化学习探索
CS294--深度强化学习
深度强化学习简介
深度强化学习
深度学习与强化学习
深度强化学习 ( DQN ) 初探
深度强化学习 ( DQN ) 初探
七月算法深度学习第三期学习笔记-第九节强化学习与Deep Q-Network
jsp页面中带有iframe页面进行后台传值出现中文乱码
取消正在执行的Linux命令
JavaScript中的递归
ACdream 1089 barty的智商（二分）
便于理解假设检验的好例子
深度强化学习中DDPG算法
js里方法调用传参长字符串时为对象或者Uncaught SyntaxError: Unexpected token ILLEGAL
Kafka、RabbitMQ、RocketMQ发送小消息性能对比
用Quartz处理定时执行的任务
ubantu14.04+ opencv-2.4.9+QT
ConcurrentHashMap、Collections.synchronizedMap、Hashtable的区别与讨论
hdu 5874 Friends and Enemies(思维）
Android中View的相关知识（7）
thinking in java 阅读笔记第一章对象入门