程序博客网 > 淘宝店铺出售0

深度学习中sarsa算法和Q-learning算法的区别

来源：互联网发布：淘宝店铺出售0 编辑：程序博客网时间：2024/06/08 17:00

sarsa 和 Q-learning都是时序差分下对动作价值函数优化的单步方法，算法基本上一样，只有一点：
为了更新St的动作价值函数，需要St+1的动作价值函数，St+1是由St和At决定的，但是St+1对应的action由什么决定呢？

sarsa的处理方式是episinon + greedy，和St选择aciton采取的方法是一样的，称为 on-policy；
Q-learning的处理方式是greedy，但是St选择action的方法还是episinon + greedy，称为 off-policy；；

阅读全文

2 0

淘宝店铺出售0

淘宝店铺出售0

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子盛世繁华之公主嫡妃穿成女主嫡姐嫡姐不知嫡姐是夫郎穿成女主的嫡姐嫡姐攻略陈时明夜不知嫡姐是夫郎雪花肉农家嫡长姐白布丁嫡姐攻略嫡姝嫡姝似水静阳嫡子难为嫡子嫡子很毒嫡子庶子嫡子策嫡子归来嫡子出嫁连生八嫡子红楼之嫡子有为红楼之大房嫡子徐门嫡子嫡孙红楼之嫡子系统连生八个嫡子红楼之长房嫡子嫡子是什么意思嫡策全文免费阅读嫡孤全文免费阅读庶嫡嫡庶有别庶可嫡国宛如清韵非嫡非庶宝酪嫡不如庶之嫡女不容欺嫡庶有别将女不好惹庶嫡方翔嫡枝青琉落尘嫡枝为上全文免费阅读嫡枝为上顾婉音嫡欢嫡欢元浅嫡母