Probabilistic Robotics读书笔记（一）

来源：互联网发布：淘宝卖家贴吧怎么引流编辑：程序博客网时间：2024/06/05 04:22

转自我的博客http://gongzheng92.net

贝叶斯滤波器的推导

模型与方程

首先我们从贝叶斯滤波器谈起。
首先我们需要的是对机器人目前状态（states）的估计，用概率的方式表达为：

p (x t │ x 0 : t - 1, z 1 : t - 1, u 1 : t)

上式可以在诸多假设条件（马尔科夫假设，观测不对环境造成影响等）下化为：

p (x t │ x t - 1, u t) (1)

同样的我们有测量模型：

p (z t │ x 0 : t, z 1 : t - 1, u 1 : t) = p (z t │ x t) (2)

然而，由于状态(states)(x)的不可直接观测，于是我们提出了置信度（belief）的概念。于是我们希望得到的状态(1)估计便可转化为：

b e l (x t) = p (x t | z 1 : t, u 1 : t ） (3)

注意这里并没有应用马尔科夫假设。

然而这里对xt 的估计是先完成测量，再进行估计,因此(3)还有一种形式，便是

先 完 成 估 计 ， 再 进 行 测 量

，即

b e l ¯ ¯ ¯ ¯ (x t) = p (x t │ z 1 : t - 1, u 1 : t) (4)

于是我们就有了贝叶斯滤波器:

B y e s_f i l t e r (b e l (x t - 1), u t, z t) for all x t do b e l ¯ ¯ ¯ ¯ (x t) = \int p (x t | u t, x t - 1) b e l (x t - 1) d x b e l (x t) = η p (z t | x t) b e l ¯ ¯ ¯ ¯ (x t) endfor return b e l (x t) (5)

其实在这里，p(xt|ut,xt−1) 就是系统模型，p(zt│xt)就是测量模型。

推导过程

那么这个(5)是怎么来的呢？我们从(3)推起：

(p (x t │ z 1 : x, u 1 : t) = p ( z t │ x t , z 1 : t - 1 , u 1 : t ) p ( x t │ z 1 : t - 1 , u 1 : t ) p ( z t │ z 1 : t - 1 , u 1 : t ) = η p (z t │ x t, z 1 : t - 1, u (1 : t)) p (x t │ z 1 : t - 1, u 1 : t)) (6)

其中因为

p(zt│z1:t−1,u1:t)与我们感兴趣的

xt没有关系，因此可范化为

η。

p(x,y)=p(x│y)p(y)=p(x)p(y) 记住联合概率（,）的运算级别高于条件概率（|）。
然后在这里推一下书上没推的公式：
Bayes rule: p(x│y)=p(y│x)p(x)p(y)

$p (x │ y, z) = p ( y , z │ x ) p ( x ) p ( y , z ) = p ( y , z , x ) p ( y │ z ) p ( z ) = p ( y │ x , z ) p ( x , z ) p ( y │ z ) p ( z ) = p ( y │ x , z ) p ( x ) p ( y | z )$

然后在p(zt│xt,z1:t−1,u1:t)之中，由于我们假设测量zt只于当前状态有关，与之前的状态与历史控制量均无关系，因此我们有：

p (z t | x t, z 1 : t - 1, u 1 : t) = p (z t │ x t)

于是有：

p (x t │ z 1 : t, u 1 : t) = η p (z t │ x t) p (x t | z 1 : t - 1, u 1 : t) (7)

即

b e l (x t) = η p (z t │ x t) b e l ¯ ¯ ¯ ¯ (x t)

但其实这句话很废话，因为就是“测量前的估计乘以测量等于测量后的估计”。
然后：

b e l ¯ ¯ ¯ ¯ (x t) = p (x t │ z 1 : t - 1, u 1 : t) = \int p (x t │ x t - 1, z 1 : t - 1, u 1 : t) p (x t - 1 │ z 1 : t - 1, u 1 : t) d x t - 1 (8)

然后由于状态转移假设（其中包括了马尔科夫假设），则

p (x t │ x t - 1, z 1 : t - 1, u 1 : t) = p (x t | x t - 1, u t)

再加之忽略红色

p(xt−1│z1:t−1,u1:t)部分的

ut （因为是未来的控制量），于是我们有

b e l ¯ ¯ ¯ ¯ (x t) = \int p (x t | u t, x t - 1) b e l (x t - 1) d x

0 0