Reinforcement Learning ——概念浅析

来源：互联网发布：铁三角msr7知乎编辑：程序博客网时间：2024/06/13 22:35

有点啰嗦的前言

学习强化学习已有一个余月，主要方式为看David Silver的讲座视频+Sutton&Andrew写的Reinforcement Learning，全是英文原版的，因此我感觉自己现在的英文水平继大一以来迎来了新的巅峰。另外对于学习笔记，我更喜欢纸质的，所以至今为止，笔记本已用去一半，博客却还一片荒凉。今晚因师哥关注错我的账号引发的小插曲，心血来潮，emm......就以此来开启小女子的博客生涯吧，感谢大家原谅我这个文青在开头写的这些废话……正题来了……

一、浅述强化学习

强化学习是一门多学科领域交叉的科学，它的本质是一门决策学科，通过不断地尝试和评估决策，找到能够表现最佳的行为，制定最优控制决策。

强化学习与监督学习的区别表现在一下几个方面：

（1）强化学习没有监督者的作用，它是一系列试错并获得奖励的过程。

（2）强化学习的反馈可能有很大的延迟：这让我想到了最近学的倒车入库，略加展开。刚开始，我车感还不好技术也不熟练的时候，老是不知道应该倒退到什么时候把方向盘打死，打早了会导致入库半径过小，打晚了则入库半径过大，不管早了还是晚了，最后到库里会发现车总是停得偏向于某一侧，但问题是在打角的那一刻，我并不知道我在这一时刻选择打死方向盘到底是早了还是晚了或是正好，只有等车差不多快倒进库口时根据车身才能判断我之前这个打角行为的好坏。这就说明了我之前采取的一个行为的好坏并不是立刻知道的，而是在经过一段延迟之后才得到反馈。但不管是早了还是晚了，我们都能通过及时调整改变策略，使车身停正，这个机制留到以后详述。

（3）在强化学习中，时间是一个很重要的概念，通常一个状态紧接一个状态，采取action，获得reward，一步一步尝试优化策略。（4）过程中的每一个动作都会因与环境的交互而影响信息的接收。

下面，我对算法中的几个重要名词和概念进行整理和解释。

二、State

history的定义为一串环境观测、奖励、动作的序列：