深度增强学习David Silver(九)——Exploration and Exploitation

来源:互联网 发布:极光大数据 王者荣耀 编辑:程序博客网 时间:2024/06/05 10:29

本课主要内容:

  • multi-armed bandits
  • contextual bandits
  • MDPs

multi-armed bandit是多臂赌博机,有元组A,R,目标是最大化奖励。
行动价值函数是一个行动所获得的平均奖励:Q(a)=E[r|a]
最优价值为V=Q(a)=maxaAQ(a)
regret指每一步的损失:lt=E[VQ(at)]
total regret为:Lt=E[tτ=1VQ(aτ)]
最大化总奖励就是最小化total regret。
Lt又可以表示为:
Lt=aAE[Nt(a)](VQ(a))=aAE[Nt(a)]Δa
Δa称为gap,是行动a和最优行动a*之间的价值上的差值。
Q^t(a)估计Q(a),使用Monte-Carlo估计:Q^t(a)=1Nt(a)Tt=1rt1(at=a)
greedy算法总是选择使Q^t(a)最高的行动,这样容易陷入次最优行动中,而且total regret呈线性。
ϵ-greedy保证了最小的regret:ltϵAaAΔa
但它也是线性的。
因此选择让ϵ逐渐衰减,
c>0,d=mina|Δa>0Δi,ϵt=min{1,c|A|d2t}
衰减的ϵt-greedy的total regret呈对数。

以上是exploitation方面的方法,接下来从exploration方面进行考虑,在不确定面前,要多探索未知位置。对每个行动价值函数设置一个置信上界U^t(a)。比如Q(a)Q^t(a)+U^t(a)具有很高的概率。当经过的次数Nt(a)较少时,U^t(a)就要比较大,让它多经过几次。
选择最大化置信上界(Upper Confidence Bound, UCB)的行动:
at=argmaxaAQ^t(a)+U^t(a)
根据Hoeffding不等式推导得出Ut(a)=2logtNt(a)

目前为止我们还没有做关于奖励R分布的假设。设给定历史ht=a1,r1,...,at1,rt1下,奖励R的后验分布为p(R|ht)
使用后验概率引导exploration:

  • Upper confidence bounds (Bayesian UCB)
  • Probability matching (Thompson sampling)
  • Better performance if prior knowledge is accurate

假设奖励分布为高斯分布Ra(r)=N(r;μa,σ2a),根据贝叶斯公式计算高斯后验概率:
p[μa,σ2a|ht]p[μa,σ2a]Πt|at=aN(rt;μa,σ2a)
选择使Q(a)的标准差最大的行动。
at=argmaxaAμa+cσa/N(a)

probability matching根据a是最优行动的概率选择行动。Thompson sampling实现probability matching。
π(a|ht)=P[Q(a)>Q(a),aa|ht]=ER|ht[1(a=argmaxaAQ(a))]

如果我们知道信息的价值,那么能更好的权衡exploration和exploitation。刚才我们将bandit看做一步的decision-marking问题。它也可以作为序列决策问题。在每一步,都有一个信息状态s^,定义MDP M^=S^,A,P^,R,γ

感觉这章偏应用。。看不下去了,第十章也是偏应用,就不讲了,就这样吧。。

阅读全文
0 0
原创粉丝点击