深度增强学习David Silver(六)——Value Function Approximation
来源:互联网 发布:淘宝超级链接怎么做 编辑:程序博客网 时间:2024/06/07 14:06
本节课主要内容:
- Value Function Approximation
- Batch Methods
Value Function Approximation
增强学习可以用来解决大规模数据集的问题。在之前的问题中,我们通过一个lookup表格来表现价值函数:每个状态都有一个特定值
通过MC或者TD学习更新参数
这个方法解决了那两个限制:不需要很多memory来存储;不需要一个一个地求状态行动价值,而是通过函数来求解。
我们考虑使用可微函数逼近,比如线性函数、神经网络、决策树等等,另外,我们需要一种适合于不稳定、不独立分布数据的训练方法。
随机梯度下降是一种最小化损失的参数估计法,利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数损失值逐步减小。设w是一个参数向量,J(w)是w的可微函数。定义J(w)的梯度为:
这里加1/2是因为常常通过最小平方差误差来定义J(w)。
设
则:
随机梯度下降法能随机采样梯度:
定义状态x(S)为特征的向量:
通过特征的线性组合定义价值函数:
则随机梯度下降法的更新为:
lookup table是线性价值函数逼近的一个特例。
w给定了每个状态的值:
以上的
以此类推可以得出行动-价值函数q(s,a,w)的信息。
收敛
接下来讨论收敛的问题,对于prediction,如下(打钩表示收敛到正确之,打叉表示发散):
- TD does not follow the gradient of any objective function
- This is why TD can diverge when off-policy or using non-linear function approximation
- Gradient TD follows true gradient of projected Bellman error
- Gradient TD在这六种情况下都收敛到正确值
对于control,如下((打钩)表示不会离最优值差太远):
batch methods
梯度下降的方法针对一个sample,更新一次梯度之后就不用了,训练数据得不到充分利用,因此采用batch。这里的损失函数是least squares算法:
由<状态,价值>对组成经验池:
每次从经验池中sample状态和价值,采用随机梯度下降法更新权值w,直到收敛到最小平方差。
Deep Q-Network(DQN)
DQN使用experience replay(经验回放池)和fixed Q-targets。
- 根据
ϵ -greedy采取行动at 。 - 将 transition
(st,at,rt+1,st+1) 存储在memoryD 中。 - 从
D 中sample mini-batch的随机的transitions(s,a,r,s′) - 根据旧的固定参数
w_ 计算Q-learning targets - 通过最小化Q-network和Q-learning targets之间的MSE来最优化。
Li(wi)=Es,a,r,s′∼Di[(r+γmaxa′Q(s′,a′;w−i)−Q(s,a;wi))2] - 使用随机梯度下降的变种。
DQN适用于神经网络,因为:经验回放池打破了数据之间的相关性;fixed Q-targets相当于再建立起第二个神经网络。
- 深度增强学习David Silver(六)——Value Function Approximation
- Reinforcement Learning_By David Silver笔记六: Value Function Approximation
- 深度增强学习David Silver(一)——介绍
- 深度增强学习David Silver(二)——马尔科夫决策过程MDP
- 深度增强学习David Silver(三)——动态规划的planning
- 深度增强学习David Silver(四)——Model-Free Prediction
- 深度增强学习David Silver(五)——Model-Free Control
- 深度增强学习David Silver(七)——Policy Gradient
- 深度增强学习David Silver(八)——Integrating Learning and Planning
- 深度增强学习David Silver(九)——Exploration and Exploitation
- reinforcement learning,增强学习:Value Function Approximation
- David Silver强化学习课程笔记(六)
- David Silver深度强化学习第1课
- 深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
- 深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
- David Silver强化学习课程笔记(一)
- David Silver强化学习课程笔记(二)
- David Silver强化学习课程笔记(三)
- MFC 遍历菜单项 获取状态 改变状态
- dot-font: 排版对比中的七项原则
- centos 下安装lnmp环境
- 上传自己写的package到Pypi (简单好用)
- 跳到登陆页面,要求登陆成功后跳回来
- 深度增强学习David Silver(六)——Value Function Approximation
- Bootstrap多选下拉框实现
- SSM微服务搭建
- Iframe 嵌套网站
- 人工智能之我见
- caffe使用过程中的问题记录
- OC 泛型, __kindof
- 移动端屏幕与视口
- 浅析数据压缩算法