关于马尔科夫决策过程的一点不理解的地方

来源：互联网发布：mac鼠标没反应编辑：程序博客网时间：2024/05/24 04:21

参考Puterman的书：Markov Decision Process 里面说马尔科夫是五元组，分别是状态空间，行动空间，决策时刻，回报函数和转移概率矩阵。

但是这篇文章https://www.cnblogs.com/jinxulin/p/3517377.html

认为是四元组。

还在其他论文和网页里看到五元组但元素和Puterman不一致的，比如这里：http://blog.csdn.net/gxsia/article/details/61928369，

http://blog.csdn.net/qiusuoxiaozi/article/details/50830175

增加了折扣因子作为累积回报。

感到很困惑，我觉得Puterman是对的。

1. 马尔可夫模型的几类子模型

大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。

马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。还是举下棋的例子，当我们在某个局面（状态s）走了一步(动作a)，这时对手的选择（导致下个状态s’）我们是不能确定的，但是他的选择只和s和a有关，而不用考虑更早之前的状态和动作，即s’是根据s和a随机生成的。

我们用一个二维表格表示一下，各种马尔可夫子模型的关系就很清楚了：

不考虑动作考虑动作状态完全可见马尔科夫链(MC)马尔可夫决策过程(MDP)状态不完全可见隐马尔可夫模型(HMM)不完全可观察马尔可夫决策过程(POMDP)

2. 马尔可夫决策过程

一个马尔可夫决策过程由一个四元组构成M = (S, A, P_sa,

阅读全文

0 0