<Reinforcement Learning>1 简介

来源：互联网发布：淘宝开网店要多少钱编辑：程序博客网时间：2024/05/29 14:35

强化学习是机器学习的一类，是通过不断学习积累经验的情况下来达到学习的目的
对比监督学习：
- 监督学习, 是在已有数据和数据对应的正确标签下来进行分类
- 但强化学习在最开始的时候并没有数据和标签
- 是在学习过程中，通过环境的反馈来得到数据和标签的
RL的算法：
- 通过价值选择行为：Q learning（使用表格学习），Sarsa（使用表格学习），Deep Q Network（使用神经网络学习）
- 直接选择行为: Policy Gradients
- 想象环境并从中学习: Model based RL

关于强化学习方法的分类：

按是否建立环境模型来分类：
- Model-free：Q learning, Sarsa, Policy Gradients
- Model-based：先建立模型，再用以上的方法学习
- 这里的model是通过在对环境理解了之后，建立一个模型来代表该环境。这种理解一般是通过以往的经验得到的。
- Model-free的方法，只能通过真实的反馈一步一步学习，要是没有反馈，就学习不了。但是Model-based的呢，能够自己给自己虚拟环境想象创造条件来学习，能学的也会更多。
按基于概率（Policy-based RL）和基于价值（Value-based RL）来分类：
- 基于概率（Policy-based RL）: 通过感官分析所处的环境，输出下一步要采用的各种动作的概率，然后根据概率采取行动。每一种动作都可能被选中，而且选中的不一定是最大概率的那个动作： Policy Gradients
- 基于价值（Value-based RL）: 输出所有动作的价值，根据最高价值来选动作: Q learning, Sarsa
- 但是 value-based RL 不能作用于连续的动作，但 Policy-based 的就可以通过概率分布来选取连续的动作。
- 基于概率和基于价值的方法中两者的结合就是Actor-Critic 方法：actor 基于概率做出动作，critic 对做出的动作给出对应的价值。
按更新方法分类：回合更新和单步更新：
- 回合更新：Monte-Carlo update, 在完成一系列动作之后再更新行为准则
- 单步更新：Temporal-Difference update，在每一步的时候就更新行为准则。
根据在线学习还是离线学习：
- on policy: 指自己亲历学习过程： Sarsa
- off-policy: 不但可以自己亲历，观看别人学习（以往的经验，数据）也能够学到东西: Q learning

需用工具：

Numpy, Pandas
Tkinter
OpenAI gym

阅读全文

0 0