增强学习之时间差分法(TD方法)

来源:互联网 发布:node mysql query参数 编辑:程序博客网 时间:2024/05/16 14:01

几个基本的概念:

1、boostraping:TD方法值函数的计算用到了bootstapping的方法。所谓bootstrpping本意是指自举,此处是指当前值函数的计算用到了后继状态的值函数。即用后继状态的值函数估计当前值函数。蒙特卡洛不使用boostraping,而TD使用boostraping。(见参考文献3

2、蒙特卡罗方法利用经验平均估计状态的值函数,所谓的经验是指一次试验,而一次试验要等到终止状态出现才结束。值函数的更新公式为:

V(St)V(St)+α(GtV(St))

其中Gt是状态St后直到终止状态所有回报的返回值。

3、TD方法更新值函数的公式为:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))

其中Rt+1+γV(St+1)称为TD目标,与蒙特卡罗方法中的Gt相对应,两者不同之处是TD目标利用了bootstrapping方法估计当前值函数。δt=Rt+1+γV(St+1)V(St)称为TD偏差。

参考文献:

  1. Google DeepMind的David Silver的强化学习课程–4免模型预测

  2. Reinforcement Learning An Introductio2017最新版–Temporal-Difference Learning-P97

  3. 增强学习Reinforcement Learning经典算法梳理3:TD方法

  4. 强化学习入门 第四讲 时间差分法(TD方法)

阅读全文
0 0
原创粉丝点击