强化学习基础(二)
来源:互联网 发布:淘宝网鞋子女鞋 编辑:程序博客网 时间:2024/05/16 12:04
强化学习基础(二)
@(Machine Learning)
State分类
环境状态 Environment State
字面理解起来就是,用于表现环境信息数据,记号为
而即便
智能体状态 agent state
记作
这个信息用于RL算法。
同时,前面文章有讲到:
这个
多啰嗦一下就是:
Information State | Markov State
这个不确定怎么翻译为中文。不妨称作马尔可夫态。包含历史序列中所有有用的信息。
Markov性质
一个状态拥有马尔可夫性质,当且仅当:
这个数学条件概率表达式翻译成文字信息就是:
The future is independent of the past given the present.
给定现在的状态后,未来的状态将与过去无关。
用一个图示:
t时刻以后的事情将仅仅由t时刻的状态决定。
下面这句更加形象:
Once the state is known, the history maybe thrown away.
接下来会继续深入agent内部,来描述RL agent的必要组成部分。
阅读全文
1 0
- 强化学习基础(二)
- 深度强化学习系列(二):强化学习基础
- 强化学习(二)
- 黑马程序员-java基础强化(二)
- 强化学习的基础总结(一)
- 强化学习基础总结(三)
- 强化学习基本方法(二)
- 强化学习基础学习系列之强化学习简介
- 从人类偏好进行深度强化学习(二)
- David Silver强化学习课程笔记(二)
- 强化学习(二)----- 马尔可夫决策过程MDP
- 强化学习(二)——MDP:马尔科夫决策过程
- 模型汇总18 强化学习(Reinforcement Learning)基础介绍
- 强化学习(一)
- 强化学习基础学习系列之MDP
- 强化学习基础 第三讲 蒙特卡罗方法
- 强化学习之最基础篇
- 强化学习基础 第三讲 蒙特卡罗方法
- C++入门基础知识
- Java实现简单的递归操作
- DOS下切换目录
- Oracle处理以,隔开存储的数据
- 多线程文件下载的服务器端及客户端
- 强化学习基础(二)
- Linux 文件与目录结构
- Centos卸载MySQL并安装
- Android四大件之Service
- 使用Docker Toolbox 创建v1.12.6版的Docker虚拟机的方法-注意正确使用本地文件 file:参数的路径名
- 计算机网络基础知识
- shared_ptr模拟代码
- Console用于reverseshell
- C++断点异常