对Q-learning和sarsa的进一步理解

来源:互联网 发布:宏汇软件 编辑:程序博客网 时间:2024/06/05 01:02

https://www.cnblogs.com/jinxulin/p/5116332.html

Q-learning与sarsa算法最大的不同在于更新Q值的时候,直接使用了最大的Q(st+1,a)值——相当于采用了Q(st+1,a)值最大的动作,并且与当前执行的策略,即选取动作at时采用的策略无关。

阅读全文
0 0