解读continuous control with deep reinforcement learning(DDPG)
来源:互联网 发布:gameloft java游戏 编辑:程序博客网 时间:2024/05/21 07:53
版权声明:本文为博主原创文章,未经博主允许不得转载。
博主:shenshikexmu
联系方式:shenshikexmu@163.com
缘起
DDPG,是Google Deepmind第一篇关于连续动作的深度加强学习论文(是否第一篇存疑)。DQN(Deep Q Network)生成的策略执行的动作是离散或者低维的,虽然在状态输入上可以是高维的观察状态。如在DQN2014中,有效的动作在4到18个之间,而输入的状态是84×84×4的图片。相对于连续动作,DQN的动作空间太小了,原文的to to simply,使得DQN瞬间沦为香港记者,呵呵。文中举的例子,是7个自由度(DOF)的机械臂,只是粗糙的控制,每一个DOF只有三种动作状态
于是需要新的深度强化学习方法,来解决连续动作空间的策略问题。
背景知识
状态动作轨迹
策略概率
状态转移概率,当前状态是
回报函数,这里给出的
折扣累计奖赏,这是在
首先这是个期望值,这是全篇论文理解的一个眼,这个公式理解了,论文思想理解80%了。里面包含
两个公式是一样的,在概率策略
文中第一个标号的公式,也是期望值,类似前面的解释,再说一点,
Bellman等式,由上面的公式变形来的,也是期望值。有点像信号处理的Z变换(傅立叶变换是Z变换的特殊形式),把时域的信号转化成频域的信号。
当策略概率
其中
其中
算法
算法利用了DQN2014中的”行为-评价”方法(actor-critic),建立两个神经网络,一个行为函数网络(actor function)
算法在迭代的过程中,评价函数网络
一次迭代后的产生的新的
算法框架图
算法中
- 解读continuous control with deep reinforcement learning(DDPG)
- 解读continuous control with deep reinforcement learning(DDPG)
- Continuous control with Deep Reinforcement Learning与DDPG(Deep Deterministic Policy Gradient)的理解
- Continuous control with deep reinforcement learning(DDPG,深度确定策略梯度)练习
- Continuous control with deep reinforcement learning
- Continuous control with Deep Reinforcement Learning
- Paper Reading 3:Continuous control with Deep Reinforcement Learning
- DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control
- 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
- Playing Atari with Deep Reinforcement Learning算法解读
- PR17.10.2:Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control
- Playing Atari with Deep Reinforcement Learning
- Playing Atari with Deep Reinforcement Learning
- learning to communicate with deep multi-agent reinforcement learning
- Paper Reading 2:Human-level control through deep reinforcement learning
- Human-level control through deep reinforcement learning(中文翻译)
- DQN-《Human-level control through deep reinforcement learning》译文
- 笔记——“Human-level control through deep reinforcement learning”
- Python读取目录下子文件
- redis最大缓存设置策略
- composer的安装
- 会java的你,能找出其中的问题吗
- asp网站在IIS布局
- 解读continuous control with deep reinforcement learning(DDPG)
- ps call
- StringUtils常用方法+StringUtils详细介绍
- 四、快速排序
- 通过读取/proc/cpuinfo获取CPU信息
- 学习笔记-volatile
- JavaScript JSON 简易教程
- python函数的参数问题
- 【初级算法剖析】超大文件获取顺序相关数据问题