关于马尔科夫决策过程的一点不理解的地方
来源:互联网 发布:mac鼠标没反应 编辑:程序博客网 时间:2024/05/24 04:21
参考Puterman的书:Markov Decision Process 里面说马尔科夫是五元组,分别是状态空间,行动空间,决策时刻,回报函数和转移概率矩阵。
但是这篇文章https://www.cnblogs.com/jinxulin/p/3517377.html
认为是四元组。
还在其他论文和网页里看到五元组但元素和Puterman不一致的,比如这里:http://blog.csdn.net/gxsia/article/details/61928369,
http://blog.csdn.net/qiusuoxiaozi/article/details/50830175
增加了折扣因子作为累积回报。
感到很困惑,我觉得Puterman是对的。
1. 马尔可夫模型的几类子模型
大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。
马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,与上面不同的是MDP考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。还是举下棋的例子,当我们在某个局面(状态s)走了一步(动作a),这时对手的选择(导致下个状态s’)我们是不能确定的,但是他的选择只和s和a有关,而不用考虑更早之前的状态和动作,即s’是根据s和a随机生成的。
我们用一个二维表格表示一下,各种马尔可夫子模型的关系就很清楚了:
不考虑动作考虑动作状态完全可见马尔科夫链(MC)马尔可夫决策过程(MDP)状态不完全可见隐马尔可夫模型(HMM)不完全可观察马尔可夫决策过程(POMDP)2. 马尔可夫决策过程
一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa,
- 关于马尔科夫决策过程的一点不理解的地方
- 一些不理解的地方
- JSONP跨越不理解的地方
- 谈大学的一些让人不理解的地方!
- 关于python的决策
- 关于JavaScript初学的一点主意的地方
- 关于存储过程的使用一点看法
- 关于函数工作过程的一点见解
- 关于DB2存储过程的一点经验
- 一种不理解的写法
- 不理解的问题
- 关于allow_url_fopen的设置与服务器的安全--不理解
- ref class 与 value class 的一些区别 和 共同点 以及一些我不理解的地方
- PBOC-第六本书中的第七章-终端风险管理部分不理解的地方
- HDU 2669 Romantic 扩展欧几里得裸题 有不理解的地方
- 关于找工作的过程中需要注意的地方
- iOS 决策app -记录决策过程,制定更理性决策的工具
- perl的一点没弄清楚的地方
- 分布式系统常见问题总结(一)
- Android 5.0 Camera系统源码分析(4):Camera预览流程数据流
- 滑动的时候报警告:Unable to preventDefault inside
- Image stabilization in vertebrates depends on contrast between objects
- 原码, 反码, 补码 详解
- 关于马尔科夫决策过程的一点不理解的地方
- Js中this的指向
- 应不应该使用inline-block代替float
- PAT 1018. 锤子剪刀布 (20)
- Bailian4003 十六进制转十进制【十六进制】
- 经典笔试题:一级指针数组、二级指针数组和三级指针的联合使用详解
- logic anysis product
- JAVA基础面试(五)
- poj 2429 GCD & LCM Inverse(大数质因数分解+DFS)