<Reinforcement Learning>1 简介
来源:互联网 发布:淘宝开网店要多少钱 编辑:程序博客网 时间:2024/05/29 14:35
- 强化学习是机器学习的一类,是通过不断学习积累经验的情况下来达到学习的目的
- 对比监督学习:
- 监督学习, 是在已有数据和数据对应的正确标签下来进行分类
- 但强化学习在最开始的时候并没有数据和标签
- 是在学习过程中,通过环境的反馈来得到数据和标签的
- RL的算法:
- 通过价值选择行为:Q learning(使用表格学习),Sarsa(使用表格学习),Deep Q Network(使用神经网络学习)
- 直接选择行为: Policy Gradients
- 想象环境并从中学习: Model based RL
关于强化学习方法的分类:
- 按 是否建立环境模型 来分类:
- Model-free:Q learning, Sarsa, Policy Gradients
- Model-based:先建立模型,再用以上的方法学习
- 这里的model是通过在对环境理解了之后,建立一个模型来代表该环境。这种理解一般是通过以往的经验得到的。
- Model-free的方法,只能通过真实的反馈一步一步学习,要是没有反馈,就学习不了。但是Model-based的呢,能够自己给自己虚拟环境想象创造条件来学习,能学的也会更多。
- 按 基于概率(Policy-based RL) 和基于价值(Value-based RL)来分类:
- 基于概率(Policy-based RL): 通过感官分析所处的环境,输出下一步要采用的各种动作的概率,然后根据概率采取行动。每一种动作都可能被选中,而且选中的不一定是最大概率的那个动作: Policy Gradients
- 基于价值(Value-based RL): 输出所有动作的价值,根据最高价值来选动作: Q learning, Sarsa
- 但是 value-based RL 不能作用于连续的动作,但 Policy-based 的就可以通过概率分布来选取连续的动作。
- 基于概率和基于价值的方法中两者的结合就是Actor-Critic 方法:actor 基于概率做出动作,critic 对做出的动作给出对应的价值。
- 按更新方法分类: 回合更新 和 单步更新:
- 回合更新:Monte-Carlo update, 在完成一系列动作之后再更新行为准则
- 单步更新:Temporal-Difference update,在每一步的时候就更新行为准则。
- 根据 在线学习 还是 离线学习:
- on policy: 指自己亲历学习过程: Sarsa
- off-policy: 不但可以自己亲历,观看别人学习(以往的经验,数据)也能够学到东西: Q learning
需用工具:
- Numpy, Pandas
- Tkinter
- OpenAI gym
阅读全文
0 0
- <Reinforcement Learning>1 简介
- Reinforcement Learning
- reinforcement learning
- Reinforcement Learning
- Reinforcement Learning
- Reinforcement Learning
- Reinforcement Learning学习笔记(1)
- Reinforcement Learning:An Introduction 读书笔记- Chapter 1
- David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning
- Reinforcement Learning Resource
- 增强学习 (reinforcement learning)
- reinforcement learning学习
- Topic笔记:reinforcement learning
- Reinforcement Learning 强化学习
- MIXER as Reinforcement Learning
- Reinforcement Learning (DQN) tutorial
- Reinforcement Learning学习总结
- 强化学习Reinforcement Learning
- Fragment+Viewpager结合实现底部页面滑动
- OpenCV实践之路——用dlib库进行人脸检测与人脸标记(Python)
- 数组中只出现一次的数字
- 开源 java CMS
- [操作系统] 实现线程包的方式
- <Reinforcement Learning>1 简介
- RabbitMQ安装教程
- 和为S的两个数字VS和为S的连续正数序列
- 和为S的连续正数序列
- 解决Server Tomcat v7.0 Server at localhost failed to start的方法
- HIVE入门之数据模型
- 卡常专用
- 【上海皿鎏软件股份有限公司】有关双向链表实现undo和redo
- 快速和改进的二维凸包算法及其在O(n log h)中的实现(理论部分)