Reinforcement Learning:An Introduction 读书笔记- Chapter 1
来源:互联网 发布:2020家居设计软件视频 编辑:程序博客网 时间:2024/06/05 23:08
- Chapter1 The Reinforcement Learning Problem
- 1 Reinforcement Learning
- 增强学习的三大特征
- 增强学习不同于监督学习也不同于非监督学习
- 增强学习的挑战
- 2 Examples
- 3 Elements of Reinforcement Learning
- 策略policy
- 回报信号reward signal
- 价值函数value function
- 模型model
- 4 Limitations and Scope
- 演化法evolutionary methods
- 增强学习并不一定能达到最优
- 5 An Extended Example Tic-Tac-Toe
- 不利用value function的做法
- 利用value function的做法
- 增强学习的主要特性
- 1 Reinforcement Learning
Chapter1 The Reinforcement Learning Problem
增强学习:是一种从环境中进行学习的方法,它比起其他机器学习的方法更加目标导向并且着重交互。
1.1 Reinforcement Learning
增强学习学的是如何为场景选择动作(action),以便使得回报(reward)最大化
增强学习从一个完整(complete),交互(interactive),向目标努力的(goal-seeking)agent开始
增强学习的三大特征:
- 闭环(closed-loop):之前选择的action会影响之后的输入
- 未告知哪个action可选:只能一个个尝试以得到最大的reward
- 影响深远:一个action不只影响到直接结果,可能对后续很长一段时间的结果都有影响。
增强学习不同于监督学习也不同于非监督学习
监督学习是通过一系列外部数据进行训练,使得整个系统可以推断出不存在于训练集中的一些动作的回应
非监督学习是为了找到隐藏的结构,而强化学习是为了最大化收益。
增强学习的挑战
平衡探索和已知。
已知(exploit):已经被尝试过的很有效率的action
探索(explore): 还未尝试过的action
1.2 Examples
增强学习是最接近人学习方式的一种机器学习。生活中的例子有很多包括棋手下棋、机器人决定是否要去清扫某个房间等等。他们的共同点在于,他们采取的action会对环境产生影响,但都不知道自己现在采取的action会对之后产生什么影响,所以必须频繁观察环境,但是他们可以很容易知道自己是否在接近自己定下的目标。在所有的例子中,对象都可以通过不断获取经验来提高他们的表现。
1.3 Elements of Reinforcement Learning
策略(policy)
策略定义了学习者在某个时刻的表现。
回报信号(reward signal)
回报定义了增强学习问题的目标。增强学习的目标就是使得reward最大化,而reward signal就说明了某个action对于目标而言有利还是有害。
reward signal是更改policy的基础,如果回报低,下次遇到相同的情况,agent就会采取不同的action。
价值函数(value function)
一个状态的value是一个agent所有reward的总和。一般来说reward比value更重要。但是在评估一个action时我们往往会选择有比较高value的action,因为它带来的是长期的效益。
模型(model)
阐明环境将会如何表现。给定state和action,model会给出下一个state和返回的reward。利用models来解决增强学习的方法为model-based method,反之叫做model-free method。
1.4 Limitations and Scope
本书大部分都在讲如何得到value function
演化法(evolutionary methods)
不需要value function。让不同的agent采取不同的policy,再对reward进行评估,找到reward最大的policy。
对于policy比较小,有一定结构性,或有足够的时间进行搜索的情况比较友好。还对agent不能准确感知环境状态的情况比较有效。
总体比较没效率,本书一般不讨论
增强学习并不一定能达到最优
尝试最大化回报并不意味着可以得到最大回报。
1.5 An Extended Example: Tic-Tac-Toe
不利用value function的做法:
比如传统的minmax和之前的演化法
利用value function的做法:
- 建立一张数据表,每个数据都代表着在某个状态下获胜的可能性。
- 在一开始时将三个X在一排的value设为1,三个O在一排的value设为0,其他情况给予初始值0.5
- 进行多场游戏,大部分时候我们是选择value最大的下法,但是我们偶尔也随机选择走法,作为探索下法(exploratory moves)。
- 在贪心选择时,更新之前状态的value
V(s)←V(s)+α[V(s′)−V(s)]
α是步长,这种更新方法称为temporal-difference - 可以通过改变α慢慢趋向于0使得这个方法收敛到一个最优策略;也可以不改变α使得策略不断改变。
增强学习的主要特性:
- 在与环境交互时学习
- 有明确的目标,好的策略要求考虑到之前一些行为延后的回报。
- Reinforcement Learning:An Introduction 读书笔记- Chapter 1
- Reinforcement Learning:An introduction读书笔记-Chapter 2
- Reinforcement Learning:An introduction读书笔记-Chapter 3
- 《reinforcement learning:an introduction》第一章《The Reinforcement Learning Problem》总结
- 强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍
- 强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)
- 《reinforcement learning:an introduction》第六章《Temporal-Difference Learning》总结
- 《reinforcement learning:an introduction》第二章《Multi-arm Bandits》总结
- 《reinforcement learning:an introduction》第四章《Dynamic Programming》总结
- 《reinforcement learning:an introduction》第五章《Monte Carlo Methods》总结
- 《reinforcement learning:an introduction》第七章《Multi-step Bootstrapping》总结
- 《reinforcement learning:an introduction》第十三章《Policy Gradient Methods》总结
- 《reinforcement learning:an introduction》第八章《Planning and Learning with Tabular Methods》总结
- introduction-to-reinforcement-learning-implementation
- David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning
- silver课程笔记----Lecture 1: Introduction to Reinforcement Learning
- 《reinforcement learning:an introduction》第三章《Finite Markov Decision Processes》总结
- 《reinforcement learning:an introduction》第九章《On-policy Prediction with Approximation》总结
- 并发编程(10)-queue
- 矩阵连乘----动态规划
- Java后台调用第三方支付接口(易宝支付)
- 普通用户与root用户的相互切换
- 【C++】模拟实现String类
- Reinforcement Learning:An Introduction 读书笔记- Chapter 1
- eclipse安装可提示js的插件(Eclipse HTML Editor)
- 异步编程
- 经验总结-完整介绍Android Studio中Git的使用之在GitHub上创建一个远程仓库(二)
- [unity]unity 五种视图
- 课程学习心得
- 习题6.3
- spring tx:advice事务配置
- 二维数组置换