Reinforcement Learning_By David Silver笔记五: Model Free Control
来源:互联网 发布:淘宝会员id在哪里查看 编辑:程序博客网 时间:2024/06/07 07:12
(Optimise the value function of an unknown MDP)
On-policy learning —— Learn about policy π from experience sampled from π
Off-policy learning —— Learn about policy π from experience sampled from u
- On-Policy Monte-Carlo Control
如果在已知environment情况下policy improvement更新方式是π‘(s)=argmaxa∈ARas+Pass′V(s‘),可以看出它的解决方案是通过状态转移矩阵把所有可能转移到的状态得到的值函数都计算出来,从中来选择最大的,但未知environment则没有状态转移矩阵,因此只能通过最大化动作值函数来更新policy即π‘(s)=argmaxa∈AQ(s,a)。由于improvement的过程需要动作值函数,那么在policy evaluation的过程中针对给定的policy需要计算的V(s)也替换成Q(s,a)。
Policy evaluation: Monte-Carlo policy evaluation Q=qπ
Policy improvement: e-greedy exploration(以一定的概率e选择随机的action)
GLIE-Greedy in the Limit with Infinite Exploration
- On-Policy Temporal-Difference Learning
和MC相比,TD的优势在于:a.低方差 b.在线 c. 不完全的序列,所以很自然地, 在我们的控制循环中使用TD代替MC,每次时序后update
3. Off-Policy Learning
从其他地方学到的经验再次使用,使用探索策略时能得到最优策略,使用一次策略时能得到多个策略
如果把两个策略当成两种分布P(X),Q(X),并且假设reward函数为f(X),两种分布中reward期望为:
因此可以从μ中来估计π获得的return,这个方法称为Importance Sampling。
Off-Policy Monte-Carlo是在第四课的Monte-Carlo Learning上的改进,
Q-Learning,更新动作值函数,说在某个已知策略下选择了下一个时刻的动作At+1,以及下一个时刻的状态St+1和奖赏Rt+1,将目标策略选择的动作A′替换到更新公式中
与上面方法不同的是,可以同时更新π和μ,且π是greedy的方式,而μ是采用了ϵϵ-greedy方式。Q-Learning的target为Rt+1+γQ(St+1,A′)=Rt+1+γQ(St+1,argmaxa′Q(St+1,a′))=Rt+1+maxa′γQ(St+1,a′),这里因为选择使Q最大的a′,所以后面的式子就是在求最大的Q。
Q learn 会先假设action,但最终计算后不一定实施该action,比较激进,选择最优
- Reinforcement Learning_By David Silver笔记五: Model Free Control
- Reinforcement Learning_By David Silver笔记四: Model Free Prediction
- Reinforcement Learning_By David Silver笔记一: Introduction
- Reinforcement Learning_By David Silver笔记二: Markov Decision Processes
- Reinforcement Learning_By David Silver笔记三: Planning by Dynamic Programming
- Reinforcement Learning_By David Silver笔记六: Value Function Approximation
- Reinforcement Learning_By David Silver笔记七: Policy Gradient Methods
- Reinforcement Learning_By David Silver笔记八: Integrating Learning and Planning
- Reinforcement Learning_By David Silver笔记九: Exploration and Exploitation
- David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control
- 深度增强学习David Silver(五)——Model-Free Control
- David Silver《Reinforcement Learning》课程解读—— Lecture 4: Model-Free Prediction
- Reinforcement Learning: Model-free control
- reinforcement learning,增强学习:Model-Free Control
- Reinforcement Learning:Model-Free Prediction 笔记
- David silver 的 reinforcement learning 课程笔记(二):马尔科夫决策过程
- 深度增强学习David Silver(四)——Model-Free Prediction
- David Silver强化学习课程笔记(五)
- .NET程序四舍五入
- 金额输入框 MoneyView
- 分割问题中“类间竞争”是怎么回事
- [算法分析与设计] leetcode 每周一题: Minimum Time Difference
- DevexpressGridControl禁止点击单元格修改
- Reinforcement Learning_By David Silver笔记五: Model Free Control
- Android6.0运行时权限解析,RxPermissions的使用,自己封装一套权限框架
- Mybatis3.2.8 使用
- 【知了堂学习笔记】_Java中cookie的学习
- MySQL InnoDB锁机制之Gap Lock、Next-Key Lock、Record Lock解析
- Mybatis高级映射(一对一的查询以及一对多)
- HTTP 2.0 协议详解
- VB控件随窗体最大化变化的方法
- Source Insight函数调用关系显示设置