PR10.21:Trust Region Policy Optimization
来源:互联网 发布:php语言好学吗 编辑:程序博客网 时间:2024/06/01 10:35
What’s problem?
根据策略梯度方法,参数更新方程式为:
策略梯度算法的硬伤就在更新步长
所谓合适的步长是指当策略更新后,回报函数的值不能更差。如何选择这个步长?或者说,如何找到新的策略使得新的回报函数的值单调增,或单调不减。
What’s the proposed solution?
用
TRPO是找到新的策略,使得回报函数单调不减,一个自然地想法是能不能将新的策略所对应的回报函数分解成旧的策略所对应的回报函数+其他项。只要新的策略所对应的其他项大于等于零,那么新的策略就能保证回报函数单调不减。
用
证明:
又优势函数的期望可以写成如下式:
其中
另外定义:
则:
这时状态s的分布由新的策略产生,对新的策略严重依赖。
引入TRPO第一步是对状态分布进行处理。忽略状态分布的变化,依然采用旧的策略所对应的状态分布。这个技巧是对原代价函数的第一次近似。其实,当新旧参数很接近时,我们将用旧的状态分布代替新的状态分布也是合理的。代价函数转换为:
式中的第二项策略部分,这时的动作a是由新的策略
于是论文中使用了important sampling。(http://blog.csdn.net/qq_30159351/article/details/72896239中有提及)
再利用
由此可知
如图所示:
η(π~) 是真实策略回报,而Lπ(π~) 是我们近似的回报函数。在θold 处可以同时优化η(π~) 和Lπ(π~)
现在的问题在于如何确定步长:
论文中给出了如下不等式(细节见论文):
其中
使得
另外论文中采用在约束条件中,利用平均KL散度代替最大KL散度,即:
并用Q来代替A来简化,最终得到:
What’s the performance of the proposed solution?
Figure 4. Learning curves for locomotion tasks, averaged across five runs of each algorithm with random initializations. Note that for the hopper and walker, a score of −1 is achievable without any forward velocity, indicating a policy that simply learned balanced standing, but not walking.
Conclusion
We proposed and analyzed trust region methods for optimizing stochastic control policies. We proved monotonic improvement for an algorithm that repeatedly optimizes a local approximation to the expected return of the policy with a KL divergence penalty, and we showed that an approximation to this method that incorporates a KL divergence constraint achieves good empirical results on a range of challenging policy learning tasks, outperforming prior methods.
- PR10.21:Trust Region Policy Optimization
- Trust Region Policy Optimization
- Trust region policy optimization笔记
- 读论文Trust Region Policy Optimization
- TRPO(trust region policy optimization)(2)
- TRPO(Trust Region Policy Optimization)(1)
- line search and trust region
- 信赖域(Trust Region)
- 信赖域(Trust Region)算法
- Proximal Policy Optimization Algorithms
- [Cloud Computing]Mechanisms: Platform Trust Policy
- line search and trust region----continue
- trust
- Improved Image Captioning via Policy Gradient optimization of SPIDEr
- hbase Region split policy 分区 分裂策略 算法
- Trust-Region with DogLeg method 信赖域和狗腿法的最优化求解
- optimization
- optimization
- p43-3.1(2)
- Tensor
- 文章标题 表格的批量删除
- 栈的应用--马踏棋盘-DFS搜索
- python圣斗士修炼(四):数据类型
- PR10.21:Trust Region Policy Optimization
- 阿里云服务器使用设置
- 返回值增加新字段
- java枚举类知识整理
- 2014 Benelux Algorithm Programming Contest (BAPC 14)
- Eclipse运行struts2项目报错:java.lang.ClassNotFoundException: org.apache.struts2.dispatcher.ng.filter.Strut
- java 集合
- PAT A1021. Deepest Root (25)
- 配置Centos的虚拟机网卡