RL笔记_DP方法与蒙特卡洛方法的差异

来源：互联网发布：爱淘宝每日红包编辑：程序博客网时间：2024/06/07 23:16

DP方法中常见的如值迭代和策略迭代，可以统称为GPI，Generalized Policy Iteration，包括两个主要部分，evaluation 和 improvement。在此方法中我们需要知道状态转移的概率分布，相当于对环境有了一个先验知识，而蒙特卡洛方法只有样本，需要什么自己计算什么，也可以叫做model free的方法。

0 0

RL笔记_DP方法与蒙特卡洛方法的差异
RL笔记_Balance exploration and exploitation 几种简单方法
classOf与getClass方法的差异
【RL笔记】基于tensorflow实现RL的policy based算法
Linux与Windows中map类erase方法的差异
【Java与C++之间的一些差异】之方法重载
Linux与Windows中map类erase方法的差异
Jquery中attr()与prop()方法的差异
Linux与Windows中map类erase方法的差异
scala类型系统：2) classOf与getClass方法的差异
Python2与Python3中__bool__方法的差异
new与override的差异以及virtual方法与abstract方法的区别
jquery中prop与attr方法差异
Python2和3差异与变通方法
RL-TCPNet的移植与使用简介
从阅读理论作品与想象文学之间的差异,联想到生活中事业与爱情的方法差异
RL笔记_强化学习与监督学习的一些区别
hibernate的常用方法的差异
Java字符串比较
【51Nod】1347 - 旋转字符串（思维）
对象的引用的四种级别以及serializable作用和实现
JSP——内置对象application out session request response+EL+uplaod+download
文章标题
RL笔记_DP方法与蒙特卡洛方法的差异
nginx源码分析之ngx_array_t
丰富你的程序，运用手机多媒体
word转pdf时，图片错位，乱跑
关于springmvc的ajax操作
《TCP/IP详解：卷一》第2章：链路层
java学习 EL 表达式
10.14、10.15学习总结
9. Palindrome Number