[强化学习]区分Model-free和Model-based方法
来源:互联网 发布:计算机二进制算法 编辑:程序博客网 时间:2024/05/29 06:35
强化学习方法分为Model-free和Model-based方法,那么这两种方法的区别在哪:
首先我们定义强化学习中的马尔可夫决策过程MDP,用四元组表示
S :环境的状态空间A :agent可选择的动作空间R(s,a) :奖励函数,返回的值表示在s 状态下执行a 动作的奖励T(s′|s,a) : 状态转移概率函数,表示从s 状态执行a 动作后环境转移至s′ 状态的概率
我们的目标是:找到一个策略
现在,如果我们知道MDP中的所有东西,那么我们可以不用在环境中做出动作便可直接求解,我们通常称在执行动作前作出的决策为规划(planning),那么一些经典的规划算法能够直接求解MDP问题,包括值迭代和策略迭代等
但是在强化学习中,agent却不是那么容易知晓MDP中所有的元素的,比如,agent也许不会知道环境将会如何改变当它执行了一个动作后(状态转移概率函数
那么,当agent不知道转移概率函数
Model-based RL
一种方法就是Model-based方法,让agent学习一种模型,这种模型能够从它的观察角度描述环境是如何工作的,然后利用这个模型做出动作规划,具体来说,当agent处于
Model free RL
但是,事实证明,我们有时候并不需要对环境进行建模也能找到最优的策略,一种经典的例子就是Q-learning,Q-learning直接对未来的回报
所以,如果你想查看这个强化学习算法是model-based还是model-free的,你就问你自己这个问题:在agent执行它的动作之前,它是否能对下一步的状态和回报做出预测,如果可以,那么就是model-based方法,如果不能,即为model-free方法
- [强化学习]区分Model-free和Model-based方法
- 强化学习基础学习系列之model-free/planning/model-base/dyna方法总结
- Reinforcement Learning强化学习系列之一:model-based learning
- 区分Generative model 和 Discriminative model
- reinforcement learning,增强学习:Model-Free Prediction
- reinforcement learning,增强学习:Model-Free Control
- 学习笔记:胖model和瘦model
- model based testing
- In Defense of Color-based Model-free Tracking (CVPR'15) 代码运行
- CVPR 2015 In Defense of Color-based Model-free Tracking 阅读笔记
- 【QT学习】View和Model
- Topic-Based Vector Space Model
- Model-Based Long Haul Testing
- Sequential Model-Based Optimization(SMBO)
- Gaussian Mixture Model(学习Free Mind知识整理)
- Markov Model and Hidden Markov Model 简介和学习线路
- Keras学习笔记---保存model文件和载入model文件
- Reinforcement Learning: Model-free control
- Delphi xe10开发常用资源(界面部分)
- 【Python Trick】set与list
- layer 弹窗 加载层 选择框
- Centos7安装Redis
- opencv3.3.0载入本地图片和网络图片新解
- [强化学习]区分Model-free和Model-based方法
- 通过监听器调起新线程执行扫描任务
- 如何用python的画几组数据量不同的boxplot(箱线图)
- 生成随机产生的训练数据
- 计算机组成原理实验三:二进制补码加法器
- HYSBZ2595-游览计划(斯坦纳树)
- 取文本值
- 插入排序之希尔排序
- java学习第47天,创建 删除 文件 目录 多级目录