强化学习(Reinforcement Learning)的方法分类

来源:互联网 发布:淘宝上买c10a配件违法 编辑:程序博客网 时间:2024/06/14 01:47

强化学习(Reinforcement Learning)的方法分类

从Andrew Ng的cs229公开课开始接触强化学习已经有一段时间了,但对于强化学习中的各种方法一直很混乱,有必要简单归类整理一下,涉及的强化学习方法有:

  • Value Iteration 值迭代
  • Policy Iteration 策略迭代
  • Monte Carlo Learing 蒙特卡洛学习
  • Q-learning
  • DQN(Deep Q-learning Network)
  • Sarsa
  • Policy Gradient
  • Actor-Critic
  • DDPG(Deep Deterministic Policy Gradient)
  • A3C(Asynchronous Advantage Actor-Critic)

所有的这些强化学习方法都是以马尔可夫决策过程(MDPs)为基础的

强化学习方法分类

这些方法的具体总结以后有时间再做。