深度学习中sarsa算法和Q-learning算法的区别

来源:互联网 发布:淘宝店铺出售0 编辑:程序博客网 时间:2024/06/08 17:00

sarsa 和 Q-learning都是时序差分下对动作价值函数优化的单步方法,算法基本上一样,只有一点:
为了更新St的动作价值函数,需要St+1的动作价值函数,St+1是由St和At决定的,但是St+1对应的action由什么决定呢?

sarsa的处理方式是episinon + greedy,和St选择aciton采取的方法是一样的,称为 on-policy;
Q-learning的处理方式是greedy,但是St选择action的方法还是episinon + greedy,称为 off-policy;;

原创粉丝点击