ICML2016最佳论文《深度强化学习的竞争网络架构》

来源：互联网发布：大数据架构师认证编辑：程序博客网时间：2024/05/14 06:13

获本年度ICML最佳的三篇论文如下：Monday – Ballroom 3+4 – 12:04 – Dueling Network Architectures for Deep Reinforcement Learning Ziyu Wang Google Inc., Tom SchaulGoogle Inc., Matteo HesselGoogle Deepmind, Hado van HasseltGoogle DeepMind, Marc LanctotGoogle Deepmind, Nando de FreitasUniversity of OxfordMonday – Ballroom 1+2+Juliard – 03:44 – Pixel Recurrent Neural Networks Aaron Van den Oord Google Deepmind, Nal KalchbrennerGoogle Deepmind, Koray KavukcuogluGoogle DeepmindTuesday – Soho – 05:44 – Ensuring Rapid Mixing and Low Bias for Asynchronous Gibbs Sampling Christopher De Sa Stanford, Chris ReStanford University, Kunle OlukotunStanford

【田渊栋】：DQN系列的方法用的是Reinforcement Learning中的Q-learning, 即给定状态s，给下一步的行动a打分，分数记为Q(s, a)，然后选取分高者作为这一步的最优策略。Q这个函数可以很复杂，特别是当状态由当前图像的像素值直接表示的时候，所以现在流行的方法是用卷积神经网络读取图像s，得到中间特征，然后再加上若干层全相连层去预测Q(s, a)在每个a上的值。而这篇文章的主要贡献很简单，在这个神经网络上稍微改进了一下，在得到中间特征后兵分两路，一路预测估值函数V(s)，另一路预测相对优势函数Advantage function A(s, a)，两个相加才是最终的Q(s, a)。这样做的好处是V(s)和A(s, a)有各自的意义，V(s)是对当前状态的长远判断（Expected Return），而A(s, a)则衡量在当前状态s下，不同行为的相对好坏，这就是所谓的Dueling Network Architecture（图2）。如果状态s1比状态s2总体要好，那么每个Q(s1, a)相对每个Q(s2, a)要高，而需要Q(s, a)的每项都去拟合这种“低频分量”，会在某种程度上费去神经网络的“容量”，不是最优的办法；而将Q(s, a)分解为V(s)及A(s, a)的和就没有这个问题。当然这个只是直觉印象，不一定是真实情况。实验上用了57个Atari Games，算是比较多（也是比较靠谱的），从表1看起来，新方法和老方法相比略好些，相反是各种其它的因素，如Gradient Clip，和Prioritized Experience Replay，对结果的影响更大。作者介绍：田渊栋，卡耐基梅隆大学机器人系博士，Facebook人工智能组研究员，Facebook围棋项目组负责人，曾在Google自动驾驶研究小组任软件工程师。以下是新智元对该论文的介绍：关注新智元（AI_era）回复“0616”下载论文（请直接在公众号回复）

论文题目：深度强化学习的竞争网络架构

摘要

近几年有许多将深度表征运用于强化学习的成功例子。

其中，许多应用使用的仍然是传统的架构，比如说卷积网络、LSTM 或是自动编码器。这篇论文中，我们提出了一种用于无模型（model-free）强化学习的全新神经网络架构。我们的竞争网络代表了两个不同的估计器：一个是状态价值函数的估计器，另一个是基于状态的行动优势函数的估计器。将其分离开的主要好处是，不改动基础强化学习算法就能泛化学习。结果表明，有许多价值相似的行动时，这种架构的策略评估更好。不仅如此，竞争架构使我们的RL代理在ATARI 2600的表现超过了目前最领先的方法。

1. 引言

我们将提出的这个网络架构命名为“竞争架构”（dueling architecture），它将状态价值的表征与（依赖状态的）行动优势的表征明显区分开。竞争架构中包括了 2 条代表价值与优势函数的流，它们共用一个卷积特征学习模块。就像图1显示的那样，2 条流在一个特殊的整合层中相互结合，生成一个对于状态-行动价值函数Q的估计。这个竞争网络应当被理解为一个单独的、有 2 条流的Q网络，在现有的算法中可以替代流行的单流Q网络，比如深度Q网络（DQN）。竞争网络会自动生成对于状态价值函数和优势函数的分别估计，无需任何额外的监督。图1：

上方是一个流行的单流Q网络，下方是竞争Q网络。竞争网络有 2 条流，用以为每个行动分别估计（标量）状态价值和优势。这两种网络都会为每个行动输出Q值。直观看，不了解每个状态下每个行动的效果时，竞争架构能了解哪些状态是（或不是）有价值的。这对于那些行动不会以任何相关的方式影响到环境的状态来说尤为有用。为了展示这一点，请想象图2里的显著性地图（saliency maps）。这些地图是根据 Simonyan 等人（2013）提出的方法，通过将训练后的关于输入视频的价值流与优势流相结合而生成的（实验部分描述了具体方法）。图中显示了两种不同时间步长下的价值显著性地图与优势显著性地图。在一种时间步长中（见下图中上面两张图），价值网络流对于道路、特别是地平线区域（那里会有新的车辆出现）投注了许多注意力，它也注意着分数。而优势流则不太关注视觉输入，因为它的行动选择在前方没有车辆时与图像实际上是无关的。然而，在第二种时间步长下（见下图中下面两张图），优势流对画面投以了注意力，因为有车辆在前方，令它的行动选择与前方车辆非常相关。

图2：观看、注意和驾驶：一个训练完的竞争架构在ATARI游戏 Enduro 的价值显著性地图与优势显著性地图（红色标注）。价值流学会对路面投以注意。优势流学会只在前方有车辆时投以注意，以此避免碰撞。实验中我们展示了，多余行动或是相似行动被添加到学习问题中时，竞争架构能更快在策略估计中识别出正确的行动。我们也评估了竞争架构将会对充满挑战的ATARI 2600测试任务带来的益处。这个领域中，一个具有某种结构和某些超参数的RL代理（agent）必须能够通过仅仅观察图像像素和游戏分数就学会玩 57 种不同的游戏。结果表明，我们的方法使对于 Mnih 等人（2015）和 van Hasselt 等人（2015）单流基线的极大提升。将优先回放（prioritized replay）与我们提出的竞争网络相结合，形成了这个流行的领域中最领先的方法。

3. 竞争网络架构

我们新架构的核心意义是，就像图2中显示的那样，对于许多状态来说，无需为每个行动选择都估计价值。例如 Enduro 游戏中，只有当可能发生碰撞时，才有必要了解要往左还是往右移动。在一些状态中，了解要采取什么行动至关重要，然而许多其他状态下，行动选择对于事态发展毫无影响。但对于基于自展（bootstrapping）的算法，每个状态下状态价值的估计都非常重要。为了将这种意义落到现实，我们设计了一种单个Q网络的架构（见图1），我们将它称为竞争网络。竞争网络的底层和原始的DQN一样，是卷积的。但是，不像DQN在卷积层之后紧随的是单独一序列全连接层，我们使用了两列（或者说流）全连接层。这些流拥有为价值函数和优势函数提供分别估计的能力。最后，两条流相互结合，生成了一个单独的Q函数输出。

5. 讨论

竞争架构的优点，部分在于它高效学习状态-价值函数的能力。竞争架构中，价值流V随着每次Q值的更新而更新——这与单流架构中的更新有所区别，单流架构中只有一个行动的价值得到更新，其他所有行动保持不变。我们的方法中这种对于价值流更频繁的更新使得价值流V获得了更多分配的资源，因此带来了对于状态价值的更好的逼近，这对于让基于时间差分的方法——比如Q学习——能成功运行是很有用的。实验中反映出了这种现象：当行动数量很大时，竞争架构相对于单流Q网络的优势也随之扩大。更重要的是，给定状态下，不同Q值的差别相对于Q值的量级非常之小。例如，用 Seaquest 游戏训练完DDQN后，有记录的状态中，各状态之间的平均行动差距（给定状态下最好与次好行动的价值差）大约是 0.04，而对各状态计算的平均状态价值差不多是 15。这种在量级上的差别可能在更新中导致少量噪音，因此让接近贪婪的策略发生急剧转变。拥有两条独立流的竞争架构在这个问题上是稳健的。

作者：头条号 / 新智元
链接：http://toutiao.com/a6298622602936910081/
来源：头条号（今日头条旗下创作平台）
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

0 0