强化学习on-policy跟off-policy的区别
来源:互联网 发布:淘宝迷你型三辊研磨机 编辑:程序博客网 时间:2024/06/07 14:24
on-policy:生成样本的policy(value function)跟网络更新参数时使用的policy(value function)相同。典型为SARAS算法,基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-policy算法。该方法会遭遇探索-利用的矛盾,光利用目前已知的最优选择,可能学不到最优解,收敛到局部最优,而加入探索又降低了学习效率。epsilon-greedy 算法是这种矛盾下的折衷。优点是直接了当,速度快,劣势是不一定找到最优策略。
off-policy:生成样本的policy(value function)跟网络更新参数时使用的policy(value function)不同。典型为Q-learning算法,计算下一状态的预期收益时使用了max操作,直接选择最优动作,而当前policy并不一定能选择到最优动作,因此这里生成样本的policy和学习时的policy不同,为off-policy算法。先产生某概率分布下的大量行为数据(behavior policy),意在探索。从这些偏离(off)最优策略的数据中寻求target policy。当然这么做是需要满足数学条件的:假設π是目标策略, µ是行为策略,那么从µ学到π的条件是:π(a|s) > 0 必然有 µ(a|s) > 0成立。两种学习策略的关系是:on-policy是off-policy 的特殊情形,其target policy 和behavior policy是一个。劣势是曲折,收敛慢,但优势是更为强大和通用。其强大是因为它确保了数据全面性,所有行为都能覆盖。
- 强化学习on-policy跟off-policy的区别
- 增强学习中的on-policy和off-policy的区别
- 增强学习中的on-policy和off-policy的区别
- 强化学习中的off-policy 和on-policy
- 强化学习之Policy Gradient
- On-policy Sarsa算法与Off-policy Q learning对比
- route-policy与filter-policy的区别
- 强化学习系列<5>Policy Gradients
- 强化学习Q learning与policy gradient
- Deterministic Policy Gradient跟Stochastic Policy Gradient区别
- RL经典mode/value/policy/step/on/off
- 强化学习基础学习系列之求解MDP问题的policy-base方法
- policy
- 强化学习系列<7>Deep Deterministic Policy Gradient (DDPG)
- 浅析强化学习及使用Policy Network实现自动化控制
- 浅析强化学习及使用Policy Network实现自动化控制
- 强化学习基础四--Policy Gradient 理论推导
- strategy和policy区别
- Android studio 中输入法中文提示不跟随光标的解决方案
- 安装Hyperledger Fabric的先决条件
- 相对路径和绝对路径
- 润乾报表批量打印在tomcat7中设置
- java异常体系详解
- 强化学习on-policy跟off-policy的区别
- Web前端基础部分——清除浮动影响
- gdb设置条件断点
- java实现图的最小生成树问题
- (转)证券投资及财富管理市场创新趋势
- Winodws下编译OpenH264 for Windows
- Android ViewFlipper
- 设计模式之(一)——策略模式(Strategy Pattern)
- 设计模式(十七)Memento备忘录