增强学习之时间差分法(TD方法)
来源:互联网 发布:node mysql query参数 编辑:程序博客网 时间:2024/05/16 14:01
几个基本的概念:
1、boostraping:TD方法值函数的计算用到了bootstapping的方法。所谓bootstrpping本意是指自举,此处是指当前值函数的计算用到了后继状态的值函数。即用后继状态的值函数估计当前值函数。蒙特卡洛不使用boostraping,而TD使用boostraping。(见参考文献3)
2、蒙特卡罗方法利用经验平均估计状态的值函数,所谓的经验是指一次试验,而一次试验要等到终止状态出现才结束。值函数的更新公式为:
其中
3、TD方法更新值函数的公式为:
其中
参考文献:
Google DeepMind的David Silver的强化学习课程–4免模型预测
Reinforcement Learning An Introductio2017最新版–Temporal-Difference Learning-P97
增强学习Reinforcement Learning经典算法梳理3:TD方法
强化学习入门 第四讲 时间差分法(TD方法)
阅读全文
0 0
- 增强学习之时间差分法(TD方法)
- 增强学习Reinforcement Learning经典算法梳理3:TD方法
- 强化学习入门第四讲 时间差分方法
- 强化学习入门第四讲 时间差分方法
- 增强学习之蒙特卡洛方法
- 运动检测-时间差分法
- 强化学习(五)----- 时间差分学习(Q learning, Sarsa learning)
- 增强学习系列之(一):增强学习介绍
- 学习笔记:方法增强
- 深度增强学习之Policy Gradient方法1
- 增强学习之基本概念
- 关于tp-link的BUG(TD-W89541G 增强型)
- 机器学习之增强学习
- TD学习总结(一)
- TD学习总结(二)
- Oracle求时间差(天、时、分、秒、毫秒)
- 获取两个日期的时间差(天数、时、分、秒)
- 增强学习系列之(二):实现一个简单的增强学习的例子
- 【比特币】 BIP
- mt2503 [Editor]Singleline中字符显示偏移的问题
- 彻底解决Spring MVC 中文乱码 问题
- 海康、大华IpCamera RTSP地址和格式
- Android 代码管理工具Git,Repo 工具
- 增强学习之时间差分法(TD方法)
- oracle的imp导入时覆盖目标数据库
- C#向数据库添加数据遇到问题——报错“‘*’附近有语法错误”
- PHP7革新与性能优化
- 【LeetCode算法练习(C++)】Next Permutation
- C++ Primer 知识点总结 (第二章)
- Error:java: Compilation failed: internal java compiler error
- C++程序中启动线程的方法
- Hyperledger Fabric SDK 示例fabric-samples-《balance-transfer》之九《查询指定的交易信息》