深度学习中sarsa算法和Q-learning算法的区别
来源:互联网 发布:淘宝店铺出售0 编辑:程序博客网 时间:2024/06/08 17:00
sarsa 和 Q-learning都是时序差分下对动作价值函数优化的单步方法,算法基本上一样,只有一点:
为了更新St的动作价值函数,需要St+1的动作价值函数,St+1是由St和At决定的,但是St+1对应的action由什么决定呢?
sarsa的处理方式是episinon + greedy,和St选择aciton采取的方法是一样的,称为 on-policy;
Q-learning的处理方式是greedy,但是St选择action的方法还是episinon + greedy,称为 off-policy;;
阅读全文
2 0
- 深度学习中sarsa算法和Q-learning算法的区别
- SARSA和Q-learning算法
- 基于table的Q learning和Sarsa算法
- 深度学习中的sarsa(lambda)和 Q(lambda)算法
- SARSA与Q-learning的区别
- On-policy Sarsa算法与Off-policy Q learning对比
- Deep Q-Learning深度增强学习算法
- 对Q-learning和sarsa的进一步理解
- Q-Learning算法学习
- Sarsa 与 Q learning对比
- 机器学习之Grid World的SARSA算法解析
- 机器学习之Grid World的Deep SARSA算法解析
- 增强学习Q-learning 算法的简明教程
- 机器学习之Grid World的Q-Learning算法解析
- Q-learning算法
- Q-learning算法实现
- 强化学习(五)----- 时间差分学习(Q learning, Sarsa learning)
- 一个 Q-learning 算法的简明教程
- 批处理文件打开matlab gui文件
- Mac安装VisualBox显示问题
- 如何调整Linux内核启动中的驱动初始化顺序
- 求数组交集不同解法小结
- PMS管理APP安装到data和禁止卸载列表
- 深度学习中sarsa算法和Q-learning算法的区别
- Image图片处理_Tool
- 通过JDBC连接数据库
- 初学数据结构---二叉树,线索二叉树相关算法
- MUI超链接不能使用
- openfire源码修改聊天消息发送内容
- 如何选择数据可视化工具?
- django模型字段
- hibernate中的HQL详解(实例)