RL笔记_DP方法与蒙特卡洛方法的差异

来源:互联网 发布:爱淘宝每日红包 编辑:程序博客网 时间:2024/06/07 23:16

DP方法中常见的如值迭代和策略迭代,可以统称为GPI,Generalized Policy Iteration,包括两个主要部分,evaluation 和 improvement。在此方法中我们需要知道状态转移的概率分布,相当于对环境有了一个先验知识,而蒙特卡洛方法只有样本,需要什么自己计算什么,也可以叫做model free的方法。

0 0
原创粉丝点击