深度增强学习David Silver(三)——动态规划的planning
来源:互联网 发布:网际网络是什么 编辑:程序博客网 时间:2024/05/22 15:59
本节课主要介绍:
- 策略评估(Policy Evaluation)
- 策略迭代(Policy Iteration)
- 价值迭代(Value Iteration)
- 动态规划(DP, Dynamic Programming)扩展
- 压缩映射
动态规划是一种用来解决复杂问题的方法,它把问题打碎成多个子问题,逐一解决,然后再合并起来。这些复杂问题通常具备两个性质:
1. 最优解能够被分解为子问题
2. 这些子问题可重复,能够被多次缓存和再使用
MDP满足这两个性质,bellman方程给出了迭代的分解,价值函数存储和再利用解决方案。动态规划可用于MDP中的planning。(Lecture01有提到planning和增强学习的不同。本节课主要讲planning,与增强学习无关。)
给定一个策略
通过贪心算法来改进策略:
根据贪心算法,每次策略都选在该状态下
当不能再改进的时候:
此时满足bellman最优方程:
对于所有的
因此
最优化的思想:一个最优策略可以被分为两部分:第一步最优行动和从后继状态开始的最优策略。如果第一步最优,那么接下来才有可能是最优策略。
价值迭代:如果我们知道子问题的最优解
这相当于从后往前,已知后面的信息,然后递推求前面的信息,求整个策略。
在Lecture02中有提及Bellman Expectation Equation和Bellman Optimality Equation。以下是同步的动态规划算法,也就是同时更新所有的状态,也就是根据旧信息得到新信息,需要为旧状态备份,直到得到所有新状态才更新。而异步动态规划是每更新一个状态,就马上把该状态的旧信息覆盖,没有固定的更新状态的顺序。
0 0
- 深度增强学习David Silver(三)——动态规划的planning
- 深度增强学习David Silver(八)——Integrating Learning and Planning
- 深度增强学习David Silver(一)——介绍
- 深度增强学习David Silver(二)——马尔科夫决策过程MDP
- 深度增强学习David Silver(四)——Model-Free Prediction
- 深度增强学习David Silver(五)——Model-Free Control
- 深度增强学习David Silver(六)——Value Function Approximation
- 深度增强学习David Silver(七)——Policy Gradient
- 深度增强学习David Silver(九)——Exploration and Exploitation
- Reinforcement Learning_By David Silver笔记三: Planning by Dynamic Programming
- David Silver强化学习课程笔记(三)
- David Silver《Reinforcement Learning》课程解读—— Lecture 3: Planning by Dynamic Programming
- 增强学习(三)----- MDP的动态规划解法
- 增强学习(三)----- MDP的动态规划解法
- 增强学习(三)----- MDP的动态规划解法
- 增强学习(三)----- MDP的动态规划解法
- David Silver深度强化学习第1课
- Reinforcement Learning_By David Silver笔记八: Integrating Learning and Planning
- Hibernate的乐观锁与悲观锁
- Java并发编程:线程间协作的两种方式:wait、notify、notifyAll和Condition
- Java源码下载地址
- [组合数]求组合数的几种方法总结
- 基础Android之百度定位
- 深度增强学习David Silver(三)——动态规划的planning
- java 中的内存泄露
- Linux下weblogic文件启动上锁
- Java中Synchronized的用法
- 语音识别概念
- phabricator导入已有git仓库
- zabbix触发器和监控项设置监控时间范围
- 算法导论程序9--维护堆的性质
- 安装lrzsz命令