Reinforcement Learning ——概念浅析

来源:互联网 发布:铁三角msr7知乎 编辑:程序博客网 时间:2024/06/13 22:35

有点啰嗦的前言


学习强化学习已有一个余月,主要方式为看David Silver的讲座视频+Sutton&Andrew写的Reinforcement Learning,全是英文原版的,因此我感觉自己现在的英文水平继大一以来迎来了新的巅峰。另外对于学习笔记,我更喜欢纸质的,所以至今为止,笔记本已用去一半,博客却还一片荒凉。今晚因师哥关注错我的账号引发的小插曲,心血来潮,emm......就以此来开启小女子的博客生涯吧,感谢大家原谅我这个文青在开头写的这些废话……正题来了……


一、浅述强化学习


强化学习是一门多学科领域交叉的科学,它的本质是一门决策学科,通过不断地尝试和评估决策,找到能够表现最佳的行为,制定最优控制决策。

强化学习与监督学习的区别表现在一下几个方面:

(1)强化学习没有监督者的作用,它是一系列试错并获得奖励的过程。

(2)强化学习的反馈可能有很大的延迟:这让我想到了最近学的倒车入库,略加展开。刚开始,我车感还不好技术也不熟练的时候,老是不知道应该倒退到什么时候把方向盘打死,打早了会导致入库半径过小,打晚了则入库半径过大,不管早了还是晚了,最后到库里会发现车总是停得偏向于某一侧,但问题是在打角的那一刻,我并不知道我在这一时刻选择打死方向盘到底是早了还是晚了或是正好,只有等车差不多快倒进库口时根据车身才能判断我之前这个打角行为的好坏。这就说明了我之前采取的一个行为的好坏并不是立刻知道的,而是在经过一段延迟之后才得到反馈。但不管是早了还是晚了,我们都能通过及时调整改变策略,使车身停正,这个机制留到以后详述。

(3)在强化学习中,时间是一个很重要的概念,通常一个状态紧接一个状态,采取action,获得reward,一步一步尝试优化策略。(4)过程中的每一个动作都会因与环境的交互而影响信息的接收。


下面,我对算法中的几个重要名词和概念进行整理和解释。


二、State


history的定义为一串环境观测、奖励、动作的序列:

state (状态)是关于history的函数,分为以下几种:


1.environment state:基于目前所知的信息,决定接下来环境的变化。通常并不一定是已知的。


2.agent state:观测、分析目前agent的所有信息,决定下一步的动作。


利用markov性质可以将history精简为state。(markov性质:下一时刻的状态,仅由当前状态决定,即当下足够表征未来。)



三、Reward


reward(奖励)是一个标量性质的反馈信号,用来表明agent做出的行为的回报。

agent和reward以及environment的关系可用下图表示:




四、Agent


agent(代理)可以形象地把它想象成人的大脑,实际为我们所创建的算法,它接收来自外部的状态信息和反馈信息,与环境进行交互并作出相应动作,同时能够影响环境变化。


1. policy:表明agent可采取的措施,是一个以状态为输入,以行动决策为输出的行为函数。(有时也可以是一个随机函数)


2. value: 衡量agent采取某种行动之后的好坏,是一个表示预期奖励的评估函数。


3. model:agent视角的环境,用来判断环境的变化。分为以下两种:

(1)transition model:环境转移模型,用来预测环境的动态变化,根据之前的动作和状态,显示环境处于下一个状态的概率。

(2)reward model:奖励模型,根据之前的动作和状态,显示预期奖励。

   很多问题中我们实际采用无模型方法,即model-free。


五、Exploration and Exploitation


第一次接触到这两个词是在遗传算法的学习中,局部探索和全局探索的平衡影响着算法的搜索能力和是否早熟等,同样在此,一方面我们要用已知的信息来最大化奖励,另一方面,我们可能会为了找到更多关于环境的信息而暂时放弃一些奖励。平衡这两者是增强学习中普遍的问题。


六、Prediction and Control


prediction(预测):遵循目前的policy(策略),会得到多少奖励,未来会如何。


control(控制):找寻最优的policy(策略),往哪里走才会获得最多的奖励。


刚开始我对这两个概念没啥太大的重视,后来学到了Monte-Carlo Learning ,TD Learning等内容才觉得这是两个很重要的概念。



第一课的笔记到这儿就结束啦,都是一些很基本的概念梳理,但确是这个算法的基石,我还是比较适应循序渐进【捂脸,其实就是很菜】,等下周计控系统期末考试结束再更第二弹吧~


阅读全文
2 0
原创粉丝点击