强化学习——值函数与Bellman方程

来源：互联网发布：萍乡网络小额贷款公司编辑：程序博客网时间：2024/06/05 07:18

在强化学习中，agent和环境之间进行一系列交互：在每个时刻t，根据环境的状态和奖励，agent采取某一行为；这个行为会作用到环境中，环境改变状态并对agent进行奖励。

这里写图片描述

agent的目标是最大化累积奖励。

1 MDP

马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。

MDP是一个五元组<S,A,P,R,γ>，其中
- S是一个有限状态集
- A是一个有限动作集
- P是一个状态转移概率矩阵，Pass′=P[St+1=s′|St=s,At=a]
- R是一个奖励函数，Ras=E[Rt+1|St=s,At=a]
- γ是一个折扣因子γ∈[0,1].

策略π是agent的行为函数:

$π (a | s) = P [A t = a | S t = s]$

注意，策略只和状态相关，和时间无关（静态的）。

2 值函数与Bellman期望方程

2.1 值函数

值函数是对未来奖励的一个预测。

回报(return)
回报Gt是从时刻t开始的总折扣奖励：

$G t = R t + 1 + γ R t + 2 + \dots = \sum k = 1 \infty γ k R t + k + 1$

状态值函数
状态值函数vπ(s)是从状态s出发，按照策略π采取行为得到的期望回报：

$v π (s) = E π [G t | S t = s]$

状态值函数可以用来评价状态的好坏。

根据定义可以得到：

v π (s) = E π [R t + 1 + γ G t + 1 | S t = s] = E π [R t + 1 + γ v π (S t + 1) | S t = s]

行为值函数
行为值函数qπ(s,a)是从状态s出发，采取行为a后，然后按照策略π采取行为得到的期望回报：

$q π (s, a) = E π [G t | S t = s, A t = a]$

根据定义可以得到：

q π (s, a) = E [R t + 1 + γ q π (S t + 1, A t + 1) | S t = s, A t = a]

2.2 Bellman期望方程

Bellman期望方程其实就是vπ(s)和qπ(s,a)自身以及相互之间的递推关系。

vπ(s)与qπ(s,a)之间的关系

v π (s) = \sum a \in A π (a | s) q π (s, a) (1)

这里写图片描述

q π (s, a) = R a s + γ \sum s' \in S P a s s' v π (s') (2)

这里写图片描述

vπ(s)自身的递推关系

把公式(2)代入(1)中得到：

v π (s) = \sum a π (a | s) ⎡ ⎣ R a s + γ \sum s' P a s s' v π (s') ⎤ ⎦ (3)

这里写图片描述

qπ(s,a)自身的递推关系

把公式(1)代入(2)中得到：

q π (s, a) = R a s + γ \sum s' P a s s' \sum a' π (a' | s') q π (s', a') (4)

这里写图片描述

3 最优值函数与Bellman最优方程

3.1 最优值函数

最优状态值函数
最优值函数v∗(s)是在所有策略上的最大值函数：

$v * (s) = max π v π (s)$

最优行为值函数
最优行为值函数q∗(s,a)是在所有策略上的最大行为值函数：

$q * (s, a) = max π q π (s, a)$

当最优值函数已知时，可以认为MDP已被解决。

3.2 Bellman最优方程

Bellman最优方程其实就是v∗(s)和q∗(s,a)自身以及相互之间的递推关系。

v∗(s)与q∗(s,a)之间的关系

v * (s) = max π v π (s) = max π \sum a \in A π (a | s) q π (s, a) = max a q * (s, a) (5.1) (5.2) (5.3)

这里写图片描述

问题：(5.3)为什么成立？

$\sum a \in A π (a | s) q π (s, a) \leq max a q π (s, a) max π \sum a \in A π (a | s) q π (s, a) \leq max π max a q π (s, a) max π \sum a \in A π (a | s) q π (s, a) \leq max a q * (s, a)$
只能证明出≤，怎么证明=呢？