Reinforcement Learning:An introduction读书笔记-Chapter 3
来源:互联网 发布:西瓜影音播放器 mac 编辑:程序博客网 时间:2024/05/21 22:26
Chapter 3 Finite Markov Decision Processes
3.1 The Agent-Environment Interface
在每一步t,agent都会接收到环境的state,
在每一步agent都会有一个关于states到选择某个action可能性的映射,这就是policy,
所有不能被agent直接改变的就是environment,agent-environment的界限是绝对控制而不是是否能得到完整的信息。
3.2 Goals and Rewards
选取reward时必须满足agent让reward最大化同时也能达成我们设定的目标。告知它你想达到的目标是什么,而不是如何达到这个目标。比如在围棋中,我们应将赢得棋局的reward设置为+1,而不是吃到敌方棋子作为+1,否则agent可能会以输掉棋局的代价吃到更多敌方棋子。
我们将reward定义在agent之外并不妨碍有些agent拥有内在的reward(internal rewards)
3.3 Returns
return
episodic tasks:agent-environment交互可以很自然的被分成称为episodes的子序列的tasks。
continuing tasks:在很多情况下agent-environment交互不能被很自然的分成定义好的episodes,而是无限制的一直连续下去,或者要持续很长时间。return的一般定义如下:
其中
3.4 Unified Notation for Episodic and Continuing Tasks
为了让episodic task和continuing task可以一同表示,我们将episode 的结束看作是一个特殊的state,absorbing state,在这个state它只会从该状态转化为自己本身,reward为0。
就像上图所示,整个reward sequence就可以看成+1,+1,+1,0,0,…就转化成了一个无限的序列。这样一来无论是episodic task还是continuing task的return就可以统一定义成下式,只是涵盖了
3.5 The Markov Property
Markov property:
一般情况下在t+1时environment做出的对于在t时action的回应是由之前所有发生过的事情决定的,可以用下式表示。
如果一个state signal有Markov property,t+1时刻environment做出的回应值决定于t时的state和action,可用下式表示:
换句话说,一个state signal有Markov property并是Markov state当且仅当对所有
如果一个environment满足Markov property,只要给出现在的state和action就可以预测出下一个state和期望得到的reward。只要不断的重复这个过程,就可以推测出未来所有的state和期望得到的reward,其效果和知道所有到目前为止完整的历史state与action一样。也就是说一个关于Markov state的最优policy函数是与关于所有历史信息的最优policy函数一样可靠的。
就算一个state不是完全符合Markov的,但我们可以把它想做一个接近markov的状态。
3.6 Markov Decision Processes
一个满足markov性质的增强学习task叫做markov decison process或者MDP,如果state和action的空间都是有限的就叫做有限MDP。
一个典型的有限MDP,是由state和action集以及每一步环境的动态变化定义的。只要给出state s和action a,以及所有下一个可能成为的state和获得的reward,就可以计算出所有关于环境的信息,比如state action对的期望reward、state的转化概率、满足state-action-next-state的三元组的reward的数学期望等。finit MDP可以写做可以写做
state-action对的期望reward则可以写做
state的转化概率可以写做
满足state-action-next-state的三元组的reward的数学期望可以写成
事实上就是在
在transition graph中有state nodes和action nodes,一个action node对应的所有的转化概率加起来为1,下图是一个transition graph,大的圆(里面写着low 和 high的)是state nodes,小的实心的是action node。每个箭头上前面那个数字是转化的概率,后面那个数字是对应三元组的reward的期望。
Value Function
value function是一个评估某个state的好坏,或者是在某个state采取某个action的好坏。这里的好坏指的是可以期望的未来的reward。
上式就是对于
Optimal Value Function
当且仅当对于所有
它们也共享相同的optimal action-value function,记作
也可以写成
因为
上述式子称为Bellman optimality equation
事实上我们只要知道
虽然接触Bellman optimality equation可以得到最优的policy,但是很少是直接有效的,因为这要求穷举,找出所有的可能性。这个解决方案建立在至少以下3个假设上:
- 可以很精确地知道环境的动态
- 有足够多的计算资源
- 符合马尔可夫
很多增强学习的问题都可以看作是近似解出Bellman optimality equation
Optimality and Approximation
主要要克服的问题:计算力的限制(尤其是每一步计算力的限制),空间的限制
增强学习on-line学习的本质让其放更多的精力在经常出现的情况上,在这些情况上做更好的决定,而不是专注于不经常出现的情况。
- Reinforcement Learning:An introduction读书笔记-Chapter 3
- Reinforcement Learning:An Introduction 读书笔记- Chapter 1
- Reinforcement Learning:An introduction读书笔记-Chapter 2
- 《reinforcement learning:an introduction》第一章《The Reinforcement Learning Problem》总结
- 强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍
- 强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)
- 《reinforcement learning:an introduction》第六章《Temporal-Difference Learning》总结
- 《reinforcement learning:an introduction》第二章《Multi-arm Bandits》总结
- 《reinforcement learning:an introduction》第四章《Dynamic Programming》总结
- 《reinforcement learning:an introduction》第五章《Monte Carlo Methods》总结
- 《reinforcement learning:an introduction》第七章《Multi-step Bootstrapping》总结
- 《reinforcement learning:an introduction》第十三章《Policy Gradient Methods》总结
- 《reinforcement learning:an introduction》第八章《Planning and Learning with Tabular Methods》总结
- introduction-to-reinforcement-learning-implementation
- 《reinforcement learning:an introduction》第三章《Finite Markov Decision Processes》总结
- 《reinforcement learning:an introduction》第九章《On-policy Prediction with Approximation》总结
- 《reinforcement learning:an introduction》第十章《On-policy Control with Approximation》总结
- 《reinforcement learning:an introduction》第十一章《Off-policy Methods with Approximation》总结
- xLua的配置
- QT 编译通过但是运行出现程序异常结束或者crashed的问题 在QT creator中最佳解决办法
- 移动端深度学习框架——绝影简介
- 设计模式C++实现(2)——策略模式
- 云星数据---Scala实战系列(精品版)】:Scala入门教程047-Scala实战源码-Scala method操作
- Reinforcement Learning:An introduction读书笔记-Chapter 3
- idea 开发springmvc 非maven版
- ubuntu16.04安装Nodejs
- 字符串移位包含的问题
- 3.Python
- 网页制作编译器Dreamweaver快捷键大全
- PAT乙级1039 到底买不买
- JCE cannot authenticate the provider BC
- java中system.in怎么用?