强化学习(二)——MDP:马尔科夫决策过程
来源:互联网 发布:知乎吉祥物 编辑:程序博客网 时间:2024/04/29 06:11
前言
本文主要采用了David Silver的RL授课ppt(个人认为英文的ppt比中文更加生动准确),与个人听课理解总结。本文详细地介绍了马尔科夫决策相关理论和目标。读懂本文的前提是已经掌握理解了上一节:http://blog.csdn.net/wqy20140101/article/details/78562890 ok,我们开始吧!
马尔科夫状态
在我们所处的环境中,接下来会发生什么事情,只取决于上一时刻的状态,而不是取决于之前所有的状态。未来只有当前状态决定(为什么,请参看上一篇简介博客:http://blog.csdn.net/wqy20140101/article/details/78562890)
状态转移概率
从当前状态转移到下一个状态的概率。
马尔科夫过程
马尔科夫过程是一个随机的过程,由一系列的具有马尔科夫状态的随机状态组成。其中,状态和概率分布完整地定义了整个系统动态变化的过程。
马尔科夫奖励过程
什么是马尔科夫奖励过程
带有value判断的马尔科夫链就是马尔科夫奖励过程。
目标函数Gt
我们关心的是
Value Function
它表明目前所在的
举例并通过计算来再次说明
注:带箭头线上面的小数是我们做某件事的概率,其中,sleep表示的是马尔科夫过程的最终状态,你不用把它看为特殊的机制,只需要看成一个自环,是一种一直在吸收的状态。
纠正:这里的v1改为g1
解释:每一个simple可以看做一个随机序列,该序列以一定的概率分布在序列上进行状态转移。上面的图片展示了,对于不同的随机序列,g的计算过程,对应的v1就是取这些g1的期望。g是随机的,但value function不是随机的。现在你知道为什么前面说的v是用来表示目前的状态有多好了吧(#^.^#)
Bellman Equation(贝尔曼方程)
从上图的推导我们可以看出,该状态s下的value function,等于预计的立即回报,加上下一个state的value function的返回值。同时,我们用一种Backup Diagram,又称为前向搜索图,来形象化地理解贝尔曼方程。首先是值函数的贝尔曼方程:
解释:在当前状态是s,值函数为v,v就等于立即奖励加上下一个状态折扣后的值函数。其中,
马尔科夫决策过程
什么是马尔科夫决策过程
马尔科夫决策过程是包含决策的马尔科夫奖励过程。
状态值函数告诉我们达到某一个
Value Function(值函数)
MDP有两种值函数,一种是状态值函数,一种是动作值函数,均是在策略
状态值函数:
Bellman Expectation Equation(贝尔曼期望方程)
从上面的策略
解释:如上图所示,在某状态下,我们做出的动作取决于我们的策略。在该策略下和状态下,我们要对可能采取的value和action求均值。我们具有一定的概率来决定作出怎样的action,而概率是由策略来决定的。
下图是动作值函数的表示。
解释:如上图所示,我们已经在状态s下采取了a行动,那么该动作值函数等于即时奖励加上转移后新状态值函数均值的折扣。即时奖励是我们在状态s下做出a行动能够立刻得到的奖励。但是环境是未知的,我们自己主动做出这样的action后,环境会以一定的概率(从原状态和action转移到新状态)影响我们行动后的状态。比如,我们要让无人机在空中表演特技,无人机根据当前的风向选择向左飞一点,但它做出这样的行动后,由于风向的不确定性,可能改变原来预期的状态,这是我们不能掌控的。至于折扣因子前面已经说过了,这里不再介绍。
优化值函数
从上图中,我们仍然无法求出最优策略,但至少我们可以得到最优策略下获得的最大奖励是多少。再来看看这个时候的backup diagram:
解释:从上面状态值函数的求法中可以看出,我们不再用期望来表示,而是改用最大值。因为我们现在要找的是最大的状态值函数,也就是说,我们现在关心的是在该状态下,哪一个action能够使当前状态值函数最大,我们就执行哪一个action。
解释:上图是最优动作值函数的求解。完全不同于最优状态值函数,我们没有用到最大值,反而用到了均值。因为我们的agent能做出的,只有action。当action做出后,环境会给我们一个立即奖励,环境同时会以一定概率影响我们下一个状态。这是被动接受,所以我们没有选择最大值,而是继续使用均值来表示我们的最优动作值函数。如果你忘记了什么是
Optimal Policy(优化策略)
终于到了我们最最最关心的问题了,究竟怎么找到最佳路径呢?首先,想再强调以下什么是
注:
- 存在一个最优的
policy - 至少有一个最优的
policy 。例如,有两个不同的action 把agent 带到相同的state ,这时,这两个policy 都可能是最优的。 - 最优policy是由最优动作函数决定的,如下图:
最优策略就是每次都选择(概率为1)使动作值函数最大的action。
总结
在读第一遍可能晦涩难懂,那就多看几遍。之前本人一直不太喜欢数学公式,但事实上,数学公式以优美的形式,可以更准确地表达。如果没有数学公式,可能整篇文章都是这个,那个,上一个,下一个…….让人满头雾水。请正视数学的存在,加油!
- 强化学习(二)——MDP:马尔科夫决策过程
- 强化学习(二)----- 马尔可夫决策过程MDP
- 【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)
- 深度增强学习David Silver(二)——马尔科夫决策过程MDP
- 强化学习入门之马尔可夫决策过程(MDP)
- 马尔科夫决策过程(MDP)
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(二)----- 马尔可夫决策过程MDP
- 增强学习(一)——马尔科夫决策过程(MDP)
- 强化学习:马尔科夫决策过程
- 机器学习——马尔可夫模型及马尔可夫决策过程(MDP)
- 强化学习(三)——动态规划解决MDP
- 增强学习(二)----- 马尔可夫决策过程Markov Decision Process,MDP
- 马尔可夫决策过程MDP
- 马尔可夫决策过程MDP
- 马尔可夫决策过程MDP
- HelloBlog
- GStreamer Plugin开发
- HTTP Status 500
- ajax顺序执行
- Asp.net初识
- 强化学习(二)——MDP:马尔科夫决策过程
- 8-LTE EMM and ECM States
- Html之获取项目路径-yellowcong
- Netty应用篇
- 阿里云服务器部署otter实现数据双A同步过程记录(3)
- 绘制loss曲线
- OpenCV实践之路——暗通道去雾简单实现
- c#之abstract关键字
- svn命令行工具安装使用(windows)