增强学习之时间差分法（TD方法）

来源：互联网发布：node mysql query参数编辑：程序博客网时间：2024/05/16 14:01

几个基本的概念：

1、boostraping：TD方法值函数的计算用到了bootstapping的方法。所谓bootstrpping本意是指自举，此处是指当前值函数的计算用到了后继状态的值函数。即用后继状态的值函数估计当前值函数。蒙特卡洛不使用boostraping，而TD使用boostraping。（见参考文献3）

2、蒙特卡罗方法利用经验平均估计状态的值函数，所谓的经验是指一次试验，而一次试验要等到终止状态出现才结束。值函数的更新公式为:

V (S t) \leftarrow V (S t) + α (G t - V (S t))

其中Gt是状态St后直到终止状态所有回报的返回值。

3、TD方法更新值函数的公式为:

V (S t) \leftarrow V (S t) + α (R t + 1 + γ V (S t + 1) - V (S t))

其中Rt+1+γV(St+1)称为TD目标，与蒙特卡罗方法中的Gt相对应，两者不同之处是TD目标利用了bootstrapping方法估计当前值函数。δt=Rt+1+γV(St+1)−V(St)称为TD偏差。

参考文献：

Google DeepMind的David Silver的强化学习课程–4免模型预测
Reinforcement Learning An Introductio2017最新版–Temporal-Difference Learning-P97
增强学习Reinforcement Learning经典算法梳理3：TD方法
强化学习入门第四讲时间差分法（TD方法）

阅读全文

0 0