深度增强学习David Silver(九)——Exploration and Exploitation
来源:互联网 发布:极光大数据 王者荣耀 编辑:程序博客网 时间:2024/06/05 10:29
本课主要内容:
- multi-armed bandits
- contextual bandits
- MDPs
multi-armed bandit是多臂赌博机,有元组
行动价值函数是一个行动所获得的平均奖励:
最优价值为
regret指每一步的损失:
total regret为:
最大化总奖励就是最小化total regret。
用
greedy算法总是选择使
但它也是线性的。
因此选择让
衰减的
以上是exploitation方面的方法,接下来从exploration方面进行考虑,在不确定面前,要多探索未知位置。对每个行动价值函数设置一个置信上界
选择最大化置信上界(Upper Confidence Bound, UCB)的行动:
根据Hoeffding不等式推导得出
目前为止我们还没有做关于奖励R分布的假设。设给定历史
使用后验概率引导exploration:
- Upper confidence bounds (Bayesian UCB)
- Probability matching (Thompson sampling)
- Better performance if prior knowledge is accurate
假设奖励分布为高斯分布
选择使Q(a)的标准差最大的行动。
probability matching根据a是最优行动的概率选择行动。Thompson sampling实现probability matching。
如果我们知道信息的价值,那么能更好的权衡exploration和exploitation。刚才我们将bandit看做一步的decision-marking问题。它也可以作为序列决策问题。在每一步,都有一个信息状态
感觉这章偏应用。。看不下去了,第十章也是偏应用,就不讲了,就这样吧。。
- 深度增强学习David Silver(九)——Exploration and Exploitation
- Reinforcement Learning_By David Silver笔记九: Exploration and Exploitation
- 深度增强学习David Silver(一)——介绍
- 深度增强学习David Silver(八)——Integrating Learning and Planning
- reinforcement learning,增强学习:Exploration and Exploitation
- 深度增强学习David Silver(二)——马尔科夫决策过程MDP
- 深度增强学习David Silver(三)——动态规划的planning
- 深度增强学习David Silver(四)——Model-Free Prediction
- 深度增强学习David Silver(五)——Model-Free Control
- 深度增强学习David Silver(六)——Value Function Approximation
- 深度增强学习David Silver(七)——Policy Gradient
- David Silver深度强化学习第1课
- 增强学习中,exploration和exploitation时常用的action选择方法
- 深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
- 深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
- David Silver强化学习课程笔记(一)
- David Silver强化学习课程笔记(二)
- David Silver强化学习课程笔记(三)
- 关于Flex中的HtmlLoader
- UNP(卷2:进程间通信)—— 第2,3章:Posix IPC 和 System V IPC
- BZOJ 2527 [Poi2011] Meteors
- Python——生成激活码并存入MySQL
- 数据结构之线性表链式存储(链表)
- 深度增强学习David Silver(九)——Exploration and Exploitation
- Noesis.Javascript中执行arttempllate读取运行错误
- 我的Android NDK之旅(五),在Mac上用eclipse手动编写代码向android开发板发送数据
- 简单的html标签
- 复习
- kotlin学习4(整数、小数、布尔型)
- Phone List 【字典树 字符串集中 一个字符串是否为另一个的字符串的前缀】
- 搜索-H
- 随笔--零碎