深度强化学习中DDPG算法

来源:互联网 发布:淘宝网用户体验 编辑:程序博客网 时间:2024/06/06 01:48

深度强化学习总的来说都是以强化学习为骨架,用神经网络代替耗内存很高的组件,加速计算。

DDPG算法是的Actor-Critic算法和神经网络的集合,就是actor部分和critic部分都用神经网络来表示。

重要的是两个神经网络怎么优化。

actor部分(就是策略函数):a = π (s,u)
critic部分(就是Q函数): Q(s,a,w)
怎么求策略梯度呢?策略梯度就是Q对u 的梯度,先Q对a求导,然后a对u求导;
求critic部分的梯度就很简单了,target Q值是清楚的,直接对求梯度即可,和Double DQN一样,采用分离的w 和 w_防止震荡。