Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

来源:互联网 发布:捷通数据机房题目 编辑:程序博客网 时间:2024/06/11 05:29

问题

  • 采样复杂.
    • 无偏的batch policy-gradient 提供了稳定学习.但是high variance.
  • 使用 泰勒展开 ….
  • 没看懂
0 0
原创粉丝点击