强化学习笔记04——动态规划

来源：互联网发布：淘宝贷款逾期無法再借编辑：程序博客网时间：2024/06/10 17:18

动态规划（DP）是指，当给出一个具体的环境模型已知的马尔科夫决定过程（MDP），可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限，因为他们假定了一个具体的模型，并且还受限于它们的计算cost很高，但它在理论上仍然很重要。

策略迭代

通用策略迭代是：
1. 先从一个策略π0开始，
2. 策略评估(Policy Evaluation) - 得到策略π0的价值vπ0
3. 策略改善(Policy Improvement) - 根据价值vπ0，优化策略π0。
4. 迭代上面的步骤2和3，直到找到最优价值v∗，因此可以得到最优策略π∗（终止条件：得到了稳定的策略π和策略价值vπ）。
这个被称为通用策略迭代(Generalized Policy Iteration)。
数学表示如下：

π 0 - \to E v π 0 - \to I π 1 - \to E v π 1 - \to I π 2 - \to E \dots - \to I π * - \to E v *

因此，我们需要关心两个问题：如何计算策略的价值，以及如何根据策略价值获得一个优化的策略。即策略评估和策略优化。
总体框架如下图：
这里写图片描述

下面分别讲解策略评估(Policy Evaluation)和策略改善(Policy Improvement)。

策略评估

策略评估是通过状态值函数来实现的，值函数定义为（S+比S多了一个终止状态）：

v π (s) ≐ E π [\sum k = 0 \infty γ k R t + k + 1 | S t = s] = \sum a π (a | s) \sum s', r p (s', r | s, a) [r + γ v π (s')], \forall s \in S ， \forall s' \in S +

此时，s状态的值函数是由其他所有状态在策略

π下的值函数确定，这是无法计算的。所以DP通过当前的策略

π计算下一时刻的状态值函数。在多次迭代后(

k→∞)，

vk≈vπ

v k + 1 (s) = E π [R t + 1 + γ v k (S t + 1) | S t = s] = \sum a π (a | s) \sum s', r p (s', r | s, a) [r + γ v k (s')], \forall s \in S, \forall s' \in S +

策略优化

可以证明，最大化动作状态值函数的同时也会最大化状态值函数（P83）。所以策略优化通过最大化动作状态值函数实现。
这里写图片描述
由此可以得到前面策略迭代的流程框图。

价值迭代

价值迭代方法是对上面所描述的方法的一种简化：
在策略评估过程中，对于每个状态s，只找最优(价值是最大的)行动a。这样可以减少空间的使用。步骤如下：
1. 初始化 - 所有状态的价值（比如：都设为0）。
2. 初始化 - 一个等概率随机策略π0(the equiprobable random policy)
3. 策略评估
对于每个状态s，只找最优(价值是最大的)行动a。即：

v k + 1 (s) ≐ m a x a E [R t + 1 + γ v k (S t + 1) | S t = s, A t = a] = m a x a \sum s', r p (s', r | s, a) [r + γ v k (s')]

价值迭代不需要优化过程，最后输出的策略直接选取最大的值函数即可：
这里写图片描述

阅读全文

0 0