强化学习的基础总结(一)
来源:互联网 发布:如何在阿里云备案域名 编辑:程序博客网 时间:2024/06/08 05:05
强化学习的基础总结(一)
@(Machine Learning)
机器学习从大类上来分,可以有三种:
- 监督学习
- 无监督学习
- 强化学习
现在关注强化学习。强化学习泛泛来说,是一种决策方法。
Q:强化学习的与众不同之处是什么?
A:有以下几点。
- 无监督。只有奖励信号。而不是监督学习中的标记空间。
- 延迟反馈。奖励系统针对的是行为(action),是一种对动态的评价。
- 时间很重要。强化学习是用连续型数据,而不是独立同分布的数据。
- agent的行为影响受到的子序列数据。即:不同的action可以推导出不同的数据序列。
强化学习构建基础
RL构建在奖励假说(reward hypothesis)上.
所谓的奖励假说是:
All goals can be described by the maximisation of expected cumulative reward.
如何评价一个智能体是好是坏是RL的一个核心问题。所以提出了RL问题的目标(goal):最大化累计奖励。
所以,当思考强化学习算法时,要始终把这个核心问题放在优先位置进行考虑。一切问题也都由此出发:无论算法有多么不同,核心目标都是为了解决最大化累积奖励。
序贯判定(sequential decision making)
我们前面笼统地说了RL问题的核心目标,偏向抽象一些,而具体落实到算法上时,我们都用数学的方法来量化目标。
比如这里的方法是:选择一系列行为,最大化总的累计奖励。
遵循三个简单原则:
- 行为可能有长远的影响(当前可能不带来最优效益甚至是于收益有损)
- 奖励有延迟
- 牺牲短期利益获得长期利益会更好
智能体和环境(Agent and Environment)
在RL系统中,agent和环境是两个大组成部分。
每一步,二者需要执行的动作是不同的。
agent:
- 执行
At - 接收观察值
Ot - 接收标量奖励
Rt
environment:
- 接收
At - 发出信号供agent观察:
Ot - 反馈标量奖励值
Rt
历史和状态(History and State)
一、 历史
历史:是观察,动作,奖励的序列。
一般用数学式描述为:
表示到t时刻,所有的
那么有这个序列可以干嘛呢?
What happens next depends on the history.
联想到我们人类自身,每个人下一步要做什么,都是基于过去的经验集合的。
下一步要发生什么,有两个方面:
- agent selects actions
- environment selects observations/rewards
即:智能体选择行为集合 && 环境选择给予什么观察值和奖励值。
二、状态
状态是什么?状态是用来决定下一步要发生什么的信息。
单纯就这个定义来看,状态和刚刚说的历史序列很相似。那么为了深刻理解,就要找一找不同。
形式化定义出来是:
表达是的t时刻的状态是到t时刻的历史序列的函数。
而状态又可以分为好几类,下一篇将会讲到这些类别的比较。
- 强化学习的基础总结(一)
- 强化学习基础总结(三)
- 强化学习(一)
- 强化学习基础(二)
- 浅谈强化学习(一)
- 强化学习(一) ----- 基本概念
- 深度强化学习系列(二):强化学习基础
- 深度强化学习系列(一):强化学习概述
- 强化基础PHP试题(一)
- 黑马程序员-java基础强化(一)
- Java基础-- 强化题(一)
- 强化学习(一)~(五)
- 【机器学习】强化学习总结
- 强化学习基础学习系列之强化学习简介
- 强化学习基本方法(一)
- 一文了解强化学习
- 一文了解强化学习
- 一文了解强化学习
- Laravel的验证码库gregwar/captcha
- 如何用iptables实现NAT
- Tensorflow实现一个简单的二分类问题
- TypeC 工作原理
- 图解Linux命令之--eval命令
- 强化学习的基础总结(一)
- centos7安装OpenShift
- 等待(wait)和通知(notify)
- Leetcode Insert Delete GetRandom O(1) Duplicates allowed and Not allowed
- Android--使用VideoView播放视频
- FragmentPagerAdapter与FragmentStatePagerAdapter区别
- JS判断用户是PC端还是移动端进入
- 另类堆栈
- java web中简单调用摄像头和话筒