程序博客网 > java计数函数怎么用

DQN（Deep Q-learning）从入门到放弃笔记

来源：互联网发布：java计数函数怎么用编辑：程序博客网时间：2024/05/29 18:01

DQN中基本的概念：

A代表的是Agent的所有动作，a代表的是Agent的一个动作。
S代表的是Agent所能感知的世界的所有状态，s代表的是Agent的一个状态。
R是一个实数值，代表奖励或惩罚（Reward）。
π代表的是状态State和动作Action存在的映射关系，即策略Policy。如果策略是随机的，policy是根据每个动作概率π(a|s)选择动作；如果策略是确定性的，policy则是直接根据状态s选择出动作a=π(s)。

stochastic Policy：∑π(a|s)=1
deterministic Policy：π(s):S→A

定义Gt为长期回报期望（Return）：表示某个时刻t的状态将具备的回报

Gt=Rt+1+λRt+2+...=∑∞k=0λkRt+k+1

状态s的值函数（状态价值函数Value function），Vπ(s)是策略π在状态s长期期望收益。

Vπ(s)=Eπ[Gt|St=s]=Eπ[Rt+1+V(St+1)|St=s]=∑π(a|s)E[Rt+1+γV(st+1)|St=s]

状态s下采取动作a的Q值为（Action-Value function 动作价值函数），Qπ(s,a)是策略π在状态s下，采取动作a的长期期望收益。

Q π (s, a) = E π [G t | S t = s, A t = a] = E π [R t + 1 + λ R t + 2 + λ 2 R t + 3 + . . . | s, a] = E s' [R + λ Q π (s', a') | s, a]

Optimal value function 最优价值函数：

Q * (s, a) = max π Q π (s, a) = E s' [R + λ max a' Q * (s', a') | s, a]

1.DQN 从入门到放弃1 DQN与增强学习

摘要：

《Playing Atari with Deep Reinforcement Learning》百度网盘地址
《Human-level Control through Deep Reinforcement Learning》百度网盘地址
DeepMind团队和UC Berkerley的Pieter Abbeel团队
David Silver的增强学习课程ppt，中文字幕视频以及讲义资料百度云盘地址，视频优酷网播放地址。

2.DQN 从入门到放弃2 增强学习与MDP

3.DQN 从入门到放弃3 价值函数与Bellman方程

4.DQN 从入门到放弃4 动态规划与Q-Learning

5.DQN从入门到放弃5 深度解读DQN算法

6.DQN从入门到放弃6 DQN的各种改进

7.DQN从入门到放弃7 连续控制DQN算法-NAF

8.150行代码实现DQN算法玩CartPole

9.深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

阅读全文

0 0

java计数函数怎么用

java计数函数怎么用

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子化学方法报复仇人斗米养恩人担米养仇人宽子被打续后被仇人绑架用什么阴招报复仇人再次相见不是路人就是仇人仇和姓仇怎么读音是什么姓仇的男孩名字姓仇的女孩名字仇富相逢一笑泯恩仇宁城和叶默为什么有仇仇恨反义词仇恨仇恨近义词拉仇恨仇恨系统仇恨的拼音仇恨的意思仇恨爱火仇恨图片仇恨拼音仇恨的反义词印第安人仇恨美国吗超级仇恨系统神级仇恨系统仇恨的近义词神级仇恨系统夏天深夜拉仇恨美食图片外蒙仇恨中国超级仇恨吸收系统超级仇恨戒指怀旧服仇恨插件霍梅尼仇恨中国被boss锁定仇恨值该怎么破仇恨系统夏平心中充满仇恨的句子仇恨的反义词是什么东帝汶为什么仇恨中国人胡士泰为什么仇恨中国四川人为什么普遍仇恨日本人