Partially Observable Markov Decision Process部分可观察的马尔可夫决策过程
来源:互联网 发布:ubuntu 14.04 安装教程 编辑:程序博客网 时间:2024/05/17 20:37
部分可观察的马尔可夫决策过程(POMDP)是MDP的泛化。在POMDP模型中,系统(这里的系统可以用具体的机器人系统来代替)的动态响应和MDP类似(如状态转移矩阵),但是系统并不能直接观测到当前的状态,就是说系统不确定自己现在处于哪个状态。所以,系统需要对环境做一个感知,来确定自己处于哪个状态。
0.引例
1.定义
POMDP可以对机器人和机器人所处的环境进行建模。通常,可以用一个七元数
在某一段时间
这里再解释一下:在POMDP模型中,机器人不能确信自己处于哪个状态,机器人对下一步动作选择的决策基础是当前所处状态的概率,就是说最有可能处于哪个状态。所以,机器人需要通过传感器收集环境信息(观测值),来更新自己对当前所处状态的可信度。这时,就会有一些称之为“信息收集”的动作出现了,它们并不是直接把机器人导向目标点,而是作为一个缓冲,让机器人先运动到临近的位置,在这个临近的位置上收集到的环境信息可能加大机器人对自己所处状态的可信度。这样,在非常确信自己所处的状态之后,机器人做出的动作决策才是更有效的。
2.置信度更新
首先说明置信空间的概念,它表示机器人对自己目前所处状态的可信度,用
3.Belief MDP
这个中文实在是不好翻译。
在POMDP中,如果我们把机器人对自己所处状态地可信度也看作是一个”状态“,称之为置信状态。那么POMDP模型的处理就可以回归到MDP模型中。我们用一个五元数
在这些参数中,
4.算法求解
5.总结
(1)POMDP模型就是多了一步对机器人当前所处状态的判断,因为在实际问题中,机器人对环境的观测是有局限性的,不准确的;所以根据环境观测信息来判断自己的状态也是有偏差的,这种偏差用概率来表示就是机器人有对自己目前所处状态的可信度有多大。
(2)MDP模型是为了解决机器人轨迹规划中动作带来结果的不确定性的问题,POMDP模型是为了解决机器人轨迹规划中对环境观测的不确定性的问题。这两类不确定性正是机器人系统所面临的基本问题,详情可参加我的博文”机器人学中的不确定性“。
6.reference
https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process
- Partially Observable Markov Decision Process部分可观察的马尔可夫决策过程
- Markov Decision Process 马尔可夫决策过程
- 马尔可夫决策过程Markov Decision Process,MDP - Kintoki
- 马科夫决策过程(Markov Decision Process,MDP)
- 部分可观测Markov决策过程的上界近似算法
- 增强学习(二)----- 马尔可夫决策过程Markov Decision Process,MDP
- 学习小记 之 马尔可夫决策过程(Markov Decision Processes)
- 有限马尔可夫决策过程(Finite Markov Decision Processes)
- 增强学习(二)----- 马尔可夫决策过程Markov Decision
- 马尔可夫过程(Markov Process)
- RxJS的秘密 Observable 可观察对象
- Observable(可观察对象)
- 马尔可夫过程(Markov Process)和马尔可夫链
- Atitit 马尔可夫过程(Markov process) hmm隐马尔科夫。 马尔可夫链,的原理attilax总结
- Markov-modulated Poisson process 马氏泊松过程
- jface databinding: 创建readonly(只读)可观察对象(observable)
- rxjs学习入门心得(一)Observable可观察对象
- Markov Decision Processes
- 欢迎使用CSDN-markdown编辑器
- 1043. 输出PATest(20)
- 装centos后无法进入win10解决方法
- Openstack高可用之数据库【garela】
- NUC1214 回文素数
- Partially Observable Markov Decision Process部分可观察的马尔可夫决策过程
- AngularJS控制器
- java中JDBCf访问数据库时报java.sql.SQLException: ORA-01017: invalid username/password; logon denied的错误
- (13.1.2)PMBOK之一(附):组织结构文化及其影响,过程资产环境因素与项目、项目管理、产品生命周期
- Qt中用CSS对进度条的样式表进行设置
- hdu 3018 Ant Trip 【图论-欧拉路】
- 爬虫实习小结
- MultiDex精补篇,进一步知道MultiDex的配置
- Hive DDL