Reinforcement Learning_By David Silver笔记五: Model Free Control

来源：互联网发布：淘宝会员id在哪里查看编辑：程序博客网时间：2024/06/07 07:12

(Optimise the value function of an unknown MDP)

On-policy learning —— Learn about policy π from experience sampled from π

Off-policy learning —— Learn about policy π from experience sampled from u

On-Policy Monte-Carlo Control
如果在已知environment情况下policy improvement更新方式是π‘(s)=argmaxa∈ARas+Pass′V(s‘)，可以看出它的解决方案是通过状态转移矩阵把所有可能转移到的状态得到的值函数都计算出来，从中来选择最大的，但未知environment则没有状态转移矩阵，因此只能通过最大化动作值函数来更新policy即π‘(s)=argmaxa∈AQ(s,a)。由于improvement的过程需要动作值函数，那么在policy evaluation的过程中针对给定的policy需要计算的V(s)也替换成Q(s,a)。

Policy evaluation: Monte-Carlo policy evaluation Q=qπ

Policy improvement: e-greedy exploration（以一定的概率e选择随机的action）

GLIE-Greedy in the Limit with Infinite Exploration

On-Policy Temporal-Difference Learning

和MC相比，TD的优势在于：a.低方差 b.在线 c. 不完全的序列，所以很自然地，在我们的控制循环中使用TD代替MC，每次时序后update

3. Off-Policy Learning

从其他地方学到的经验再次使用，使用探索策略时能得到最优策略，使用一次策略时能得到多个策略
如果把两个策略当成两种分布P(X),Q(X)，并且假设reward函数为f(X)，两种分布中reward期望为:
这里写图片描述
因此可以从μ中来估计π获得的return，这个方法称为Importance Sampling。

Off-Policy Monte-Carlo是在第四课的Monte-Carlo Learning上的改进，

Q-Learning，更新动作值函数，说在某个已知策略下选择了下一个时刻的动作At+1，以及下一个时刻的状态St+1和奖赏Rt+1，将目标策略选择的动作A′替换到更新公式中

与上面方法不同的是，可以同时更新π和μ，且π是greedy的方式，而μ是采用了ϵϵ-greedy方式。Q-Learning的target为Rt+1+γQ(St+1,A′)=Rt+1+γQ(St+1,argmaxa′Q(St+1,a′))=Rt+1+maxa′γQ(St+1,a′)，这里因为选择使Q最大的a′，所以后面的式子就是在求最大的Q。

这里写图片描述

Q learn 会先假设action，但最终计算后不一定实施该action，比较激进，选择最优

阅读全文

0 0