DQN(Deep Q-learning)从入门到放弃笔记
来源:互联网 发布:java计数函数怎么用 编辑:程序博客网 时间:2024/05/29 18:01
DQN中基本的概念:
A代表的是Agent的所有动作,a代表的是Agent的一个动作。
S代表的是Agent所能感知的世界的所有状态,s代表的是Agent的一个状态。
R是一个实数值,代表奖励或惩罚(Reward)。
π 代表的是状态State和动作Action存在的映射关系,即策略Policy。如果策略是随机的,policy是根据每个动作概率π(a|s) 选择动作;如果策略是确定性的,policy则是直接根据状态s选择出动作a=π(s) 。
stochastic Policy:
deterministic Policy:
- 定义
Gt 为长期回报期望(Return):表示某个时刻t的状态将具备的回报
- 状态s的值函数(状态价值函数Value function),
Vπ(s) 是策略π 在状态s长期期望收益。
- 状态s下采取动作a的Q值为(Action-Value function 动作价值函数),
Qπ(s,a) 是策略π 在状态s下,采取动作a的长期期望收益。
- Optimal value function 最优价值函数:
1.DQN 从入门到放弃1 DQN与增强学习
摘要:
《Playing Atari with Deep Reinforcement Learning》百度网盘地址
《Human-level Control through Deep Reinforcement Learning》百度网盘地址
DeepMind团队和UC Berkerley的Pieter Abbeel团队
David Silver的增强学习课程ppt,中文字幕视频以及讲义资料百度云盘地址,视频优酷网播放地址。
2.DQN 从入门到放弃2 增强学习与MDP
3.DQN 从入门到放弃3 价值函数与Bellman方程
4.DQN 从入门到放弃4 动态规划与Q-Learning
5.DQN从入门到放弃5 深度解读DQN算法
6.DQN从入门到放弃6 DQN的各种改进
7.DQN从入门到放弃7 连续控制DQN算法-NAF
8.150行代码实现DQN算法玩CartPole
9.深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
- DQN(Deep Q-learning)从入门到放弃笔记
- DQN从入门到放弃学习总结(2)
- DQN 从入门到放弃1 DQN与增强学习
- Deep Q Learning 笔记
- Deep Q Network (DQN)
- 用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird
- 用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird
- 用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird
- (Deep Reinforcement Learning with Double Q-learning, H. van Hasselt et al., arXiv, 2015)(dqn)练习
- Deep Reinforcement Learning 基础知识(DQN方面)
- Deep Reinforcement Learning 基础知识(DQN方面)
- Deep Reinforcement Learning 基础知识(DQN方面)
- Deep Reinforcement Learning 基础知识(DQN方面)
- Deep Reinforcement Learning 基础知识(DQN方面)
- Deep Reinforcement Learning 基础知识(DQN方面)
- Deep learning学习笔记(1)从回归到神经网络
- 从bagging到dropout(deep learning笔记Ian)
- 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
- Xcode 出现 Signing ....... .dylib with codesign错误
- xadmin的安装和基础使用
- java开发环境搭建jdk+tomcat+eclipse
- 【原】记一次加密网页html的研究
- c++中字符串反转的3种方法
- DQN(Deep Q-learning)从入门到放弃笔记
- MySQL金融版线上发布会:它为什么是金融企业的首选_技术大佬、产品和神秘嘉宾本位“演绎”
- JSX语法入门(一)
- vue上传图片组件编写
- 「译」一篇非常不错的前端面试文章
- TLD跟踪算法(单目标)相关资料
- <a>标签做按钮使其无法跳转页面
- Android_GridLayout和GridView
- android as快捷键