<Reinforcement Learning>1 简介

来源:互联网 发布:淘宝开网店要多少钱 编辑:程序博客网 时间:2024/05/29 14:35
  • 强化学习是机器学习的一类,是通过不断学习积累经验的情况下来达到学习的目的
  • 对比监督学习:
    • 监督学习, 是在已有数据和数据对应的正确标签下来进行分类
    • 但强化学习在最开始的时候并没有数据和标签
    • 是在学习过程中,通过环境的反馈来得到数据和标签的
  • RL的算法:
    • 通过价值选择行为:Q learning(使用表格学习),Sarsa(使用表格学习),Deep Q Network(使用神经网络学习)
    • 直接选择行为: Policy Gradients
    • 想象环境并从中学习: Model based RL

关于强化学习方法的分类

  • 按 是否建立环境模型 来分类:
    • Model-free:Q learning, Sarsa, Policy Gradients
    • Model-based:先建立模型,再用以上的方法学习
    • 这里的model是通过在对环境理解了之后,建立一个模型来代表该环境。这种理解一般是通过以往的经验得到的。
    • Model-free的方法,只能通过真实的反馈一步一步学习,要是没有反馈,就学习不了。但是Model-based的呢,能够自己给自己虚拟环境想象创造条件来学习,能学的也会更多。
  • 按 基于概率(Policy-based RL) 和基于价值(Value-based RL)来分类:
    • 基于概率(Policy-based RL): 通过感官分析所处的环境,输出下一步要采用的各种动作的概率,然后根据概率采取行动。每一种动作都可能被选中,而且选中的不一定是最大概率的那个动作: Policy Gradients
    • 基于价值(Value-based RL): 输出所有动作的价值,根据最高价值来选动作: Q learning, Sarsa
    • 但是 value-based RL 不能作用于连续的动作,但 Policy-based 的就可以通过概率分布来选取连续的动作。
    • 基于概率和基于价值的方法中两者的结合就是Actor-Critic 方法:actor 基于概率做出动作,critic 对做出的动作给出对应的价值。
  • 按更新方法分类: 回合更新 和 单步更新:
    • 回合更新Monte-Carlo update, 在完成一系列动作之后再更新行为准则
    • 单步更新Temporal-Difference update,在每一步的时候就更新行为准则。
  • 根据 在线学习 还是 离线学习:
    • on policy: 指自己亲历学习过程: Sarsa
    • off-policy: 不但可以自己亲历,观看别人学习(以往的经验,数据)也能够学到东西: Q learning

需用工具

  • Numpy, Pandas
  • Tkinter
  • OpenAI gym
原创粉丝点击