《教机器人理解语义概念》翻译

来源:互联网 发布:mac cyberduck使用 编辑:程序博客网 时间:2024/06/06 00:55

本文是对《Teaching Robots to Understand Semantic Concepts》一文进行的翻译。

原文地址
https://research.googleblog.com/2017/07/teaching-robots-to-understand-semantic.html

机器学习可以使机器人获得复杂的技能,如抓住和打开门。 然而,学习这些技能需要我们手动编制机器人尝试优化的奖励功能。 相比之下,人们可以通过观察别人的做法来理解任务的目标,或者只是被告知目标是什么。 我们可以这样做,因为我们利用我们自己对世界的先前的了解:当我们看到有人砍苹果时,我们明白,目标是生产两片,不管它是什么类型的苹果,还是什么样的工具 用来削减它 同样,如果我们被告知拿起苹果,我们明白我们要抓住哪个对象,因为我们可以在环境中说出“苹果”这个词:我们知道这是什么意思。
这些是语义概念:像产生两个切片的突出事件,以及由“苹果”这样的词表示的对象类别。我们可以教导机器人来了解语义概念,让他们遵循通过分类标签或用户提供的示例指定的简单命令吗? 在这篇文章中,我们讨论了我们最近关于机器人学习的一些工作,它结合了机器人自主收集的经验,机器人丰富但缺乏人提供的标签,人体标记的数据允许机器人了解语义。 我们将描述机器人如何使用他们的经验来理解人为提供的示范中的突出事件,尽管人类机器人身体之间存在差异,并且基于用户命令理解诸如“玩具“和“笔“之类的语义类别来拾取对象。
理解具有深刻视觉特征的人类演示
在第一组实验中,出现在我们的论文“无人值守感知奖励模仿学习”中,我们的目标是使机器人能够理解一个任务,如打开一扇门,只看到少量的未标记的人类示威。 通过分析这些演示,机器人必须了解构成任务成功的语义突出事件,然后使用强化学习来执行。
这里写图片描述
在非常小的数据集上的无监督学习是机器学习中最具挑战性的场景之一。 为了使这种可行性,我们使用从ImageNet上进行图像识别训练的大型网络的深度视觉特征。 已知这种特征对于语义概念是敏感的,同时保持对诸如外观和照明的妨扰变量的不变性。 我们使用这些功能来解释用户提供的示范,并表明从几个示范中无需再培训就可以以无监督的方式学习奖励功能。
这里写图片描述
奖励功能的例子就是从观察门打开的任务中学习的。当任务完成时,奖励会逐渐从零增加到最大奖励。
在从观察中学习奖励功能后,我们用它来引导机器人学习开门任务,只使用图像来评估奖励功能。 借助于大约10%的时间的初步动作演示,机器人使用学习的奖励功能学习提高到100%的准确度。
这里写图片描述
通过自我监督和模仿来模拟人类的活动。
时间对比网络:从多观察观察中进行自我监督学习,我们提出了一种从观察中学习世界的新颖方法,并通过自我监督的姿态模拟证明了这一点。 我们的方法主要依靠监督的时间和空间的同时发生:通过训练来区分视频的不同时期的帧,它学会将现实分解和组织成有用的抽象表示。
在例如姿势模仿任务中,表示的不同维度可以编码人或机器人身体的不同关节。 而不是手动定义人与机器人关节之间的映射(由于生理差异而首先含糊不清),我们让机器人学习以端到端的方式模仿。 当我们的模型同时接受人体和机器人观察的训练时,即使没有提供任何对应关系,也可以自然地发现两者之间的对应关系。 因此,我们获得了一种机器人,可以模仿人的姿势,而无需人与机器人之间的对应关系。
这里写图片描述
自我监督的人类模仿机器人
学习端对端的好处的明显证据是上面展示的多对一和高度非线性关节映射。 在这个例子中,上下运动涉及许多关节,而机器人只需要一个关节。 我们显示机器人本身已经发现了这种高度复杂的映射,没有任何明确的人类姿态信息。
掌握语义对象类别
上面的实验说明了人们如何通过示例演示来指定机器人的目标,在这种情况下,机器人必须解释任务的语义 - 突出事件和姿势的相关特征。 如果不是展示任务,人类只是想告诉它要做什么呢? 这也需要机器人了解语义,以便识别世界中哪些对象与用户指定的语义类别相对应。 在语义研究的端对端学习中,我们研究了手动标记和自动收集的数据的组合如何用于执行语义掌握的任务,其中机器人必须从与用户匹配的混乱bin中拾取对象 指定的类标签,如“橡皮擦”或“玩具”。
为了学习如何执行语义掌握,我们的机器人首先收集一个大量的数据集,通过自主地尝试拾取各种各样的对象,如前一篇文章和以前的工作中所详述的那样。 该数据本身可以允许机器人拾取对象,但不允许其理解如何将它们与语义标签相关联。 为了能够理解语义,我们再次征求了适度的人力监督。 每次机器人成功地抓住一个物体,它会以规范的姿势将其呈现给相机,如下图所示。
然后,这些图像的一个子集由人标签商标记。 由于呈现图像以规范姿态显示对象,因此通过在标记的示例上训练分类器,很容易将这些标签传播到剩余的呈现图像。 标签的展示图像然后告诉机器人实际拾取了哪个对象,并且它可以将该标签与事后相关联的图像相关联,并从该箱子拾取该对象时观察到的图像。
使用这个标记的数据集,我们可以训练一个双流模型,该模型预测哪些对象将被掌握,以当前图像和机器人可能采取的动作为条件。 我们采用的双流模型灵感来源于人类视觉皮层中观察到的背侧腹部分解,其中腹侧流对物体的语义类别造成的影响,而背部流动对于掌握几何的原因。 关键的是,腹侧流可以包含由对象(不一定来自机器人)的标记图像组成的辅助数据,而背面流可以包含不具有语义标签的辅助数据,从而允许整个系统更有效地使用 更大量的异质标记数据。 以这种方式,我们可以将有限数量的人类标签与大量自动收集的机器人数据结合在一起,以便根据所需的语义类别来掌握对象,如下面的视频所示。
未来的工作
我们的实验显示了有限的语义标签数据可以与由机器人自动收集和标记的数据相结合,以使机器人能够理解事件,对象类别和用户演示。 将来,我们可以想象,机器人系统可以通过用户注释的数据和不断增加的自主收集的数据集的组合进行训练,提高机器人能力并减轻设计自主机器人的工程负担。 此外,随着机器人系统在现实世界中收集越来越多的自动注释的数据,该数据可以用于改进不仅机器人系统,还可以用于改进计算机视觉,语音识别和自然语言处理的系统,这些系统都可以从这样大的 辅助数据源。
当然,我们不是第一个考虑机器人语义学的人。 自然语言理解,机器人感知,掌握和模仿学习的广泛工作已经考虑了如何在机器人系统中结合语义和行为。 然而,我们上面讨论的实验可能指向未来在自主机器人系统的上下文中结合自我监督和人标签数据的工作。