Baird's Counterexample
来源:互联网 发布:盛势网络剧海外版480p 编辑:程序博客网 时间:2024/06/15 07:09
rl第二版 11.2
在rl 2nd的第七章,我们介绍了一些表格off-policy算法,接下来为了将off-policy算法应用到function approximation,我们将更新表格数组改为更新权重向量
对于episodic,单步的状态价值函数的semi-gradient off-policy TD(0),更新如下:
接下来举个例子。
如图所示,有7个状态,2个行动的MDP,从上到下,从左到右,分别编号为0,1,2,3,4,5,6。behavior policy
因此
可以参考优达学院的rl课程,理解题意(代码中)。从实验结果可以看到
The example shows that even the simplest combination of bootstrapping and function approximation can be unstable if the backups are not done according to the on-policy distribution.
代码:
https://github.com/Mandalalala/Reinforcement-Learning-an-introduction/tree/master/Chapter%2011
参考:
优达学院baird’s counterexample:
https://classroom.udacity.com/courses/ud600/lessons/4627968925/concepts/46743885780923
- Baird's Counterexample
- A. Counterexample
- coderforce 483A Counterexample
- CF 275A. Counterexample
- CodeForces 483A Counterexample
- Codeforces 483A Counterexample(水题)
- Codeforces Round #275 (Div. 2) A Counterexample
- A. Counterexample (Codeforces Round #275(div2)
- Codeforces Round #275 (Div. 2) Counterexample
- s
- s
- s
- s
- s
- s
- s
- s
- s
- LeetCode 12. Integer to Roman
- 简单的Filter+Servlet+反射,实现Servlet中有多个方法可以执行
- 【Java并发编程】并发编程大合集
- 双端队列
- android模拟器抓包工具fiddler使用
- Baird's Counterexample
- hdu 5073/2014鞍山现场赛Galaxy(数学推导,尺取)
- Loj 515(bitset)
- java的jdk动态代理和cglib动态代理区别
- sass基础二
- linux cpu load学习笔记
- LA 3525 Wild West 单调性
- Tomcat 和 Eclipse for Java EE 的安装
- PAT 1096. Consecutive Factors (20)