强化学习笔记04——动态规划
来源:互联网 发布:淘宝贷款逾期無法再借 编辑:程序博客网 时间:2024/06/10 17:18
动态规划(DP)是指,当给出一个具体的环境模型已知的马尔科夫决定过程(MDP),可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限,因为他们假定了一个具体的模型,并且还受限于它们的计算cost很高,但它在理论上仍然很重要。
策略迭代
通用策略迭代是:
1. 先从一个策略
2. 策略评估(Policy Evaluation) - 得到策略
3. 策略改善(Policy Improvement) - 根据价值
4. 迭代上面的步骤2和3,直到找到最优价值
这个被称为通用策略迭代(Generalized Policy Iteration)。
数学表示如下:
因此,我们需要关心两个问题:如何计算策略的价值,以及如何根据策略价值获得一个优化的策略。即策略评估和策略优化。
总体框架如下图:
下面分别讲解策略评估(Policy Evaluation)和策略改善(Policy Improvement)。
策略评估
策略评估是通过状态值函数来实现的,值函数定义为(
此时,s状态的值函数是由其他所有状态在策略
策略优化
可以证明,最大化动作状态值函数的同时也会最大化状态值函数(P83)。所以策略优化通过最大化动作状态值函数实现。
由此可以得到前面策略迭代的流程框图。
价值迭代
价值迭代方法是对上面所描述的方法的一种简化:
在策略评估过程中,对于每个状态s,只找最优(价值是最大的)行动a。这样可以减少空间的使用。步骤如下:
1. 初始化 - 所有状态的价值(比如:都设为0)。
2. 初始化 - 一个等概率随机策略
3. 策略评估
对于每个状态s,只找最优(价值是最大的)行动a。即:
价值迭代不需要优化过程,最后输出的策略直接选取最大的值函数即可:
- 强化学习笔记04——动态规划
- 强化学习(三)——动态规划解决MDP
- ACM学习笔记——动态规划
- 【转载】近似动态规划与强化学习入门步骤
- 强化学习(三)----- MDP的动态规划解法
- 强化学习:动态规划算法实现一个简单的示例
- 动态规划学习笔记
- 动态规划学习笔记
- 动态规划学习笔记
- 动态规划--学习笔记
- 动态规划学习笔记
- 学习笔记---动态规划
- 动态规划学习笔记
- 动态规划学习笔记
- 动态规划学习笔记
- 强化学习学习笔记——介绍强化学习(reinforcement learning)
- 强化学习中同步动态规划和异步动态规划 Synchronous and Asynchronous dynamic programminging
- 算法导论学习笔记——动态规划
- java枚举
- phpcms模板
- Swift-枚举的基本学习和高级使用
- OpenMP Atomic
- 数组中找重复的数字
- 强化学习笔记04——动态规划
- USACO之Section1.2.2 Transformations[模拟]
- 算法导论——栈与队列
- 职责链模式
- bzoj 1043 [HAOI2008]下落的圆盘
- 计算机组成原理——系统总线
- YUV数据格式
- JAVA中的集合类接口——Collection
- OpenMP threadprivate