深度增强学习David Silver（九）——Exploration and Exploitation

来源：互联网发布：极光大数据王者荣耀编辑：程序博客网时间：2024/06/05 10:29

本课主要内容：

multi-armed bandits
contextual bandits
MDPs

multi-armed bandit是多臂赌博机，有元组⟨A,R⟩，目标是最大化奖励。
行动价值函数是一个行动所获得的平均奖励：Q(a)=E[r|a]
最优价值为V∗=Q(a∗)=maxa∈AQ(a)
regret指每一步的损失：lt=E[V∗−Q(at)]
total regret为：Lt=E[∑tτ=1V∗−Q(aτ)]
最大化总奖励就是最小化total regret。
Lt又可以表示为：
Lt=∑a∈AE[Nt(a)](V∗−Q(a))=∑a∈AE[Nt(a)]Δa
Δa称为gap，是行动a和最优行动a*之间的价值上的差值。
用Q^t(a)估计Q(a)，使用Monte-Carlo估计：Q^t(a)=1Nt(a)∑Tt=1rt1(at=a)
greedy算法总是选择使Q^t(a)最高的行动，这样容易陷入次最优行动中，而且total regret呈线性。
ϵ-greedy保证了最小的regret：lt≥ϵA∑a∈AΔa
但它也是线性的。
因此选择让ϵ逐渐衰减，
c>0,d=mina|Δa>0Δi,ϵt=min{1,c|A|d2t}
衰减的ϵt-greedy的total regret呈对数。

以上是exploitation方面的方法，接下来从exploration方面进行考虑，在不确定面前，要多探索未知位置。对每个行动价值函数设置一个置信上界U^t(a)。比如Q(a)≤Q^t(a)+U^t(a)具有很高的概率。当经过的次数Nt(a)较少时，U^t(a)就要比较大，让它多经过几次。
选择最大化置信上界（Upper Confidence Bound, UCB）的行动：
at=argmaxa∈AQ^t(a)+U^t(a)
根据Hoeffding不等式推导得出Ut(a)=2logtNt(a)−−−−√

目前为止我们还没有做关于奖励R分布的假设。设给定历史ht=a1,r1,...,at−1,rt−1下，奖励R的后验分布为p(R|ht)。
使用后验概率引导exploration：

Upper confidence bounds (Bayesian UCB)
Probability matching (Thompson sampling)
Better performance if prior knowledge is accurate

假设奖励分布为高斯分布Ra(r)=N(r;μa,σ2a)，根据贝叶斯公式计算高斯后验概率：
p[μa,σ2a|ht]∝p[μa,σ2a]Πt|at=aN(rt;μa,σ2a)
选择使Q(a)的标准差最大的行动。
at=argmaxa∈Aμa+cσa/N(a)−−−−√

probability matching根据a是最优行动的概率选择行动。Thompson sampling实现probability matching。
π(a|ht)=P[Q(a)>Q(a′),∀a′≠a|ht]=ER|ht[1(a=argmaxa∈AQ(a))]

如果我们知道信息的价值，那么能更好的权衡exploration和exploitation。刚才我们将bandit看做一步的decision-marking问题。它也可以作为序列决策问题。在每一步，都有一个信息状态s^，定义MDP M^=⟨S^,A,P^,R,γ⟩

感觉这章偏应用。。看不下去了，第十章也是偏应用，就不讲了，就这样吧。。

阅读全文

0 0