从人类偏好进行深度强化学习(一)

来源:互联网 发布:细集料筛分试验数据 编辑:程序博客网 时间:2024/05/16 14:23

摘要

为使复杂加强学习RL系统能有效与真实环境互动,我们需要向这些系统传递复杂目标。这里,我们探索轨迹片段组间人类偏好定义的目标。我们展示这种方法可以有效的解决复杂的RL任务而不需要访问奖励函数,包括Atari游戏和模拟机器人定位,仅需提供少于1%代理与环境互动的反馈。这将足以降低人类监督成本到可以实际被应用于最先进的RL系统。为了展示我们方法的灵活性,我们展示可以仅用人类一小时成功地训练复杂的新行为。这些行为和环境比之前任何从人类反馈学习都更为复杂。

介绍

近期将加强学习扩展到大规模问题主要由明确定义奖励函数(Mnih等2015,2016;Silver等2016)领域推动。不幸的是很多任务涉及目标复杂、定义困难、难以明确。突破这些限制可极大的扩展深度RL的影响,并将机器学习应用到更广的领域。

例如,假设我们想用强化学习来训练一个机器人清理桌子或煎一个鸡蛋。我们不清楚如何去定义一个合适的奖励函数,这个函数要使用机器人的感应器。我们可以试着设计一个简单的奖励函数大致捕捉想要的行为,但这常导致优化奖励函数的行为并无法实际满足我们的偏好。这个困难也导致了近期关于我们的价值和RL系统目标之间不匹配的忧虑(Bostrom,2014;Russell,2016;Amodei等,2016)。如果我们能够成功的将我们实际的目标传递给我们的代理,这将成为解决这个问题的重要一步。

如果我们有期望任务的展示,我们可以使用逆强化学习来提取奖励函数(Ng和Russell,2000)。这个奖励函数可以用来训练强化学习的代理。更直接的,我们可以使用模仿学习来克隆展示的行为。但是,这种方式无法直接用于那些人类难以展示的行为(例如以很大的自由度但是非人类形态学来控制一个机器人)。

另一个方式是允许人类对我们系统的当前行为提供反馈,并使用反馈来定义任务。原则上这个与强化学习的范型契合,但对RL系统直接使用人类反馈作为激励函数是如此之昂贵而不可行,一般需要成百上前小时的经验。为了实际能使用人类反馈来训练深度RL系统,我们需要将需要的反馈量降低几个级数。

我们的方式是从人类反馈学习一个奖励函数然后优化该函数。这种基本的方式此前被探讨,但我们直接涉及将它扩展到现代深度RL的挑战,并展示目前为止从人类反馈中学习到的最复杂的行为。

总结起来,我们需要一个解决序列决策问题的方案而不使用明确的激励函数1、使我们能够解决只能识别期望行为而无法展示的任务,2允许非专家用户教代理,3扩展到大规模问题,并且4、对于用户反馈是经济的。

我们的算法是奖励函数契合人类偏好并同时训练策略来优化当前预测的奖励函数。

我们请人来比较代理行为的短视频片段,而不是提供绝对的数据分值。我们发现在一些领域人类更容易提供比较,而在学习人类偏好时同样有效。比较短视频片段与比较单独的状态一样迅速,但我们发现比较结果更为有用。另外,我们发现在网上收集反馈提高了系统的表现并同时防止它利用学到奖励函数的弱点。

我们的实验在两个领域开展:Atari游戏和Arcade学习环境(Bellemare等2013),和在物理模拟MuJoCo中的机器任务(Todorov等,2012)。我们展示少量的非专家人类的反馈,从15分钟到5个小时,足够学习大多数传统的RL任务,即使奖励函数不可观察。我们然后考虑每个领域的一些新行为,例如后空翻或在车流中驾驶。我们展示我们的算法可以用大约一个小时的反馈学习这些行为,虽然还不清楚如何手工去设计奖励函数来激励他们。

相关工作

关于反馈学习的文献非常多并且包括图像生成(Secretan等2008),计算机动画(Brochu等2010),语言游戏(Wang等2016),假臂(Pilarski等2011),和对话系统(Sugiyama等2012)。在强化学习中有一长串关于从人类评级评类的著作,包括Akrour等2011,Akrour等2012,Wilson等2012,Wirth和Furnkranz2013,El Asri等2016,和Wirth等2016。另一个研究分支考虑从偏好强化学习的一般问题而不是绝对奖励值(Furnkranz等2012,Akrour等2014)。

我们的算法遵循Akrour等2012和Akrour等2014的基本方法。他们考虑自由度为4的连续域和小离散域,那里他们可以假设使用手动编码的特征可期望奖励为线性。我们考虑具有几十自由度的物理任务和没有手工编码特征的Atari任务;我们环境的复杂性迫使我们使用不同的RL函数和奖励模型,并解决不同算法各有优劣的问题。一个明显的不同是Akrour等2012和Akrour等2014明确偏好整体轨迹而不是短片段。所以虽然我们收集了多于2个数量级以上的比较,我们的实验需要少于1个数量级的人类时间。另外的不同集中于改变我们的训练过程来应对非线性奖励模型和现代的深度RL,例如使用非同步训练和聚合。

我们的反馈诱发遵循Wilson等2012。但是Wilson等2012假设奖励函数是到未知“目标”策略的距离(本身是一个手工编码特征的线性函数)。他们使用贝叶斯推断来拟合这个奖励函数,并且他们使用目标策略的MAP估计生成轨迹而不是执行RL。他们的实验涉及取自贝叶斯模型的“合成”人类反馈,而我们执行收集自非专家用户反馈的实验。不清楚Wilson等2012的方法是否可以延伸到复杂任务或是使用真实的人类反馈。

MacGlashan等2017,Pilarski等2011,Knox和Stone2009,和Knox2012进行的的实验涉及从真实的人类反馈进行强化实验,但他们的算法方式较为不同。在MacGlashan等2017和Pilarski等2011,学习只在人类训练者提供反馈时发生。这在一些领域不太可行,例如Atari游戏,需要上千小时的经验去学习高质量的策略,并且对于我们考虑的最简单的问题也会成本太高而无法实行。TAMER(Knox2012)与我们方式相同,学习一个奖励函数,然后使用该奖励函数,即使没有人类反馈时。但是TAMER的奖励函数缺乏远见,因此不适用于期望的策略非常复杂并需要许多小时的经验去学习。

与之前所有工作相比,我们主要的贡献在于将人类反馈扩展到深度强化学习并且学习更为复杂的行为。这与近期的将奖励学习方法扩展到大规模深度学习系统相契合,例如逆RL(Finn等2016),模仿学习(Ho和Ermon2016;Stadie等2017),半监督技巧生成(Finn等2017),以及从展示中自举强化学习(Silver等2016Hester等2017)。

原创粉丝点击