基于Q-function的强化学习方法的总结

来源:互联网 发布:哪里有卖淘宝详情页的 编辑:程序博客网 时间:2024/06/05 00:15
本篇博客只讨论reinforcement learning方法中Q-function的方法,包括Q-learning,NIPS DQN和Nature DQN算法上面的区别,尝试探讨为什么这些改进会对效果有很大的提升。

图1
基于Q-funtion的强化学习方法主要有五个要素,agent、environment、action、observation(state)、reward,下图是它的关系图,Agent从环境中得到observation,根据得到的observation去执行action,环境会给一个回报值(reward),并且返回下一个observation。
在Q-learning中,是怎么根据observation选择action的呢?原来Q-learning中存在一个Q-table,用来存储state和action对应的Q值,Q值反映的是环境的回报,Q-table会往回报高的方向进行更新。Q-table类似于下图

这里写图片描述

当state、action维度增大时。Q-table的维度会变得特别的大,难以维护,查找的时间消耗也会变得特别的大,所以就有了NIPS的DQN,它的创新点在于用CNN做一个非线性函数,用来拟合state、action和Q值之间的关系。并且提出了experience replay来降低数据之间的关联性。
experience replay 的具体做法是经历一个state的时候把state、对应的action、reward存到一个固定长度buffer里面,后面在进行训练更新网络的时候,输入的数据就是从buffer里面随机选择的。
但是NIPS的DQN同时也存在一个问题,在于它的Loss。它的Loss是通过同一个网络产生Q-target和Q-eval的差作为Loss的,两者同时变,网络收敛比较困难。
这里写图片描述
这里想强调一下的是r(t)是在状态s(t)下执行action获得的reward(和s(t)无关),所以写成r(t)。整个Loss的解释就是当前状态s(t)下的Q值需要往“执行当前action获得的reward + 下一个状态可能获得的最大的Q值”的方向变化。后来Nature的DQN为了解决收敛问题,提出使用一个延迟网络target network用来计算下一个状态可能获得的最大的Q值
这里写图片描述
标红色的是target Network的网络参数。
Nature的DQN还是存在一个问题,就是overestimate的问题。每次计算Loss的时候会计算连续N次的均值,如果是每次取完了最大值max然后取均值后更新网络会出现overestimate的问题。
这里写图片描述
所以后来的Double DQN使用eval Network来计算a值,这样就去掉了max a’这个操作,解决了overestimate的问题。Double DQN的Loss为:
这里写图片描述

参考论文:
[1]Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
[2]Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … & Petersen, S. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
[3]Van Hasselt, H., Guez, A., & Silver, D. (2016, February). Deep Reinforcement Learning with Double Q-Learning. In AAAI (pp. 2094-2100).

参考博客:
[1]”DQN从入门到放弃6 DQN的各种改进” Flood Sung
https://zhuanlan.zhihu.com/p/21547911
[2]莫烦python强化学习系列

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 多看阅读云空间 云空间有什么用 什么是云空间 什么是云存储空间 情深之可云有空间 云主机空间 qq云空间 有道云笔记空间 什么是云储存空间 星空云免费空间 昆山云立方 云立方 成都云立方楼盘 独宠太子妃漫步云端 漫步云端路作品 云竹湖在哪里 有道云笔记网页 有道云笔记使用教程 有道云笔记教程 有道云笔记使用方法 有道云笔记 记账 印象云笔记 有道云笔记怎么样 印象笔记和有道云笔记哪个好 印象笔记还是有道云笔记 有道云笔记 为知笔记 有道云笔记网页版登陆 免费好用的云笔记 有道云笔记怎么用 有道云笔记 手写 有道云笔记win8 云道笔记 哪个云笔记好用 云笔记网页版 有道云笔记怎么记账 云笔记产品 工作云笔记 网页版云笔记 云笔记那个好用 移动云笔记 程序员 云笔记