程序博客网 > 淘宝上买c10a配件违法

强化学习（Reinforcement Learning）的方法分类

来源：互联网发布：淘宝上买c10a配件违法编辑：程序博客网时间：2024/06/14 01:47

强化学习（Reinforcement Learning）的方法分类

从Andrew Ng的cs229公开课开始接触强化学习已经有一段时间了，但对于强化学习中的各种方法一直很混乱，有必要简单归类整理一下，涉及的强化学习方法有：

Value Iteration 值迭代
Policy Iteration 策略迭代
Monte Carlo Learing 蒙特卡洛学习
Q-learning
DQN（Deep Q-learning Network）
Sarsa
Policy Gradient
Actor-Critic
DDPG（Deep Deterministic Policy Gradient）
A3C（Asynchronous Advantage Actor-Critic）

所有的这些强化学习方法都是以马尔可夫决策过程（MDPs）为基础的

强化学习方法分类

这些方法的具体总结以后有时间再做。

阅读全文

0 0

淘宝上买c10a配件违法

淘宝上买c10a配件违法

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子窄谱中波紫外线中泰化学中泰证券中泰集团中泰中泰股份中泰齐富通中泰铁路中泰海洋馆中泰高铁中泰峰境中泰庆模具杭州中泰中泰化工中泰科技中泰房价中泰z200 中泰互译中泰汽车中泰关系新疆中泰中泰广场中泰肛肠中泰旅游中泰斗法中泰地产中泰信上景中泰家政中泰建交中泰运动场中泰设计中泰大厦中泰驾校中泰医疗中泰花园中泰保险中泰车中泰海洋世界 002092中泰化学新疆中泰集团中泰化学股票