【复盘DeepMind2017】国际最顶级AI实验室：战柯洁、打星际、巨亏背后

来源：互联网发布：淘宝二手智能机编辑：程序博客网时间：2024/05/01 13:49

原文链接：点击打开链接

摘要：今天，DeepMind 哈萨比斯等人在官方博客发布2017年的研究总结。从AlphaGo到AlphaGo Zero，到已经实际应用的WaveNet，到医疗应用Stream的进展，DeepMind取得了一系列重大研究成果。

AlphaGo

回顾2017，不仅仅局限于DeepMind，AlphaGo也是不可跳过的关键词。在这一年，AlphaGo不仅没有沉寂，还完成了质的飞跃。

AlphaGo Master/Ke Jie/Zero→AlphaZero

首先是2016年底至2017年年初，再度强化的AlphaGo以“Master”为名，在未公开其真实身份的情况下，借非正式的网络快棋对战进行测试，挑战中韩日台的一流高手，60战全胜

接着就是5月，被誉为“世纪大战”的乌镇围棋峰会上，AlphaGo Master对战柯洁，以3:0的成绩获胜，团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的1/10。

10月，AlphaGo Zero横空出世，Alpaha Zero在基本的围棋规则外，完全不依赖于人类数据。同时，AlphaGo Zero大幅简化算法和结构，将对弈李世石时期的两个神经网络简化为一个，直接使用棋盘上的落子（局面）为输入并进行评估。3天超越李世石版AlpahGo，40天达到Master水平。

最后，12月，DeepMind在NIPS大会期间发布了AlpahZero，这是一个通用棋类AI，不仅轻松击败了最强国际象棋AI和将棋AI，训练34小时的AlphaZero也胜过了训练72小时的AlphaGo Zero。

不过，需要指出，AlphaGo系列在强大计算力——谷歌TPU，而且最多时使用了5000多块——支持下取得辉煌成绩，而这一点无法扩展和普及，因此也遭到诟病。

强化学习探索：让智能体学会跑酷

DeepMind的论文Emergence of Locomotion Behaviours in Rich Environments探索了丰富的环境如何促进复杂行为的学习，而这一研究出名的原因，也与DeepMind公开的一系列令人捧腹的“跑酷”视频分不开：在这些视频当中，强化学习智能体以诡异且魔性的姿势，在充满障碍物的环境中导航，动作虽然不怎么协调，但智能体确确实实在不断调整中完成了任务，生动展现了AI在复杂环境中学习运动的过程。

走向产品化：Parallel WaveNet

WaveNet升级进入谷歌产品，提供智能语音技术。10月份谷歌硬件大会上，基于WaveNet的语音合成技术在所有的平台上生成美式英语和日语的谷歌助手语音。Parallel WaveNet也是在谷歌最新的TPU云架构上运行的第一个产品。

星际争霸II

DeepMind在2016年底宣布与暴雪合作，进军电子战略竞技游戏《星际争霸II》。《星际争霸》被认为是继围棋、扑克之后，AI与人较量的下一个竞技场，也是训练和研究通用人工智能的一个适合的虚拟场景，目前，DeepMind、微软、Facebook和阿里巴巴都在研究用AI来玩这一游戏，希望能增强AI的通用能力。8月，DeepMind推出了相应的强化学习模拟环境SC2LE，进一步

神经科学与人工智能结合

强调AI与神经科学的结合，一直是DeepMind的调性。2017年这方面比较突出的几点包括，哈萨比斯Neuron长文评论神经科学对人工智能的重要性——值得一提，哈萨比斯本人也在今年当选英国皇家学会会员。6月，DeepMind博客发文，探索用认识科学揭开深度学习黑箱，还有在Nature子刊上发表论文，探索人类行为中的强化学习，为开发智能体强化学习提供新策略。

组建伦理委员会，回应医疗数据滥用争议

10月，DeepMind重磅组建伦理委员会DeepMind Ethics & Society（DMES），联合创始人Mustafa Suleyman担任总负责人，委任了6名外部专家委员，对AI技术社会影响多有评论的牛津大学未来学家Nick Bostrom也在其中。据《金融时报》报道，DMES预计2018年扩大到25人。有评论指出，DeepMind成立这个类似技术“同行评审团”的独立部门，也是为了缓和DeepMind被指滥用医疗隐私数据的负面影响。

建立加拿大分部，拓展资源

7月，DeepMind也将其触角拓展到AI力量涌现的加拿大，在阿尔伯塔大学所在的埃德蒙顿市成立了第一个国际分部，强化学习祖师级人物Richard Sutton出任顾问（也是DeepMind首个外部顾问），同时担任这个阿尔伯塔实验室的负责人。成立时DeepMind阿尔伯塔实验室的规模在10人左右。

人才：被指成为“高校教授收割机”，这种做法不可持续

根据LinkedIn的数据，数十位AI研究人员在过去几年离开了牛津大学和剑桥大学，因为在DeepMind可能会有更好的报酬。根据彭博社援引的英国监管文件，2016年DeepMind的薪资平均为34.5万美元。《卫报》也多次刊文，讨论DeepMind将牛津、剑桥教授一网打尽的后果。

运营成本：DeepMind去年巨亏1.6亿美元

DeepMind的研究可谓硕果累累，但其花费也不菲。根据英国政府10月2日发布的资料，DeepMind去年亏损了 1.62亿美元，其5270万美元的收入全部来自于其为母公司Alphabet其他版块所做的工作，而不是外部客户。DeepMind 的法律费用也在2016年激增。

DeepMind的2017着实精彩，开源内部深度学习框架Sonnet、提出分布式强化学习、深度学习生成记忆模型、号称远超RNN的GTMM、用区块链验证数据透明性……

今年7月，世界排名第一的围棋棋士柯洁在连胜20场后接受了采访。这距离他在中国乌镇未来围棋峰会与AlphaGo对弈已经过去两个月。

他说：“在与AlphaGo的比赛之后，我彻底反思了这场比赛，现在我可以看到这些反思对我的帮助很大。我希望所有棋手能够去思考AlphaGo下棋的思想和技法，这些都是非常有意义的。虽然我输了，但是我发现围棋的变化确实是太大了，它还在不停地进步，我也希望自己能不断的进步，在自己的顶峰时期多待几年。”

8592b5694c49fb8c3874856916b1017d2526b47f

乌镇未来围棋峰会是一个为期5天的盛会，其中有各种的比赛形式，包括人机配对赛、团队赛，以及柯洁对阵AlphaGo

柯洁可以说是围棋界大师级的任务，我们很尊敬他的发言。我们也受到了这些发言的启发，因为它们暗示未来社会可以使用AI作为发现的工具，发掘新的知识，增加对世界的理解。特别是在机器辅助科学方面，我们希望AI系统能够帮助我们应对气候变化和药物发现的挑战，寻找复杂的新材料或帮助减轻医疗系统的压力方面取得进展。

这种社会效益的潜力是DeepMind的初心，我们很高兴能够在一些基础科学挑战以及AI安全和伦理方面继续取得进展。

DeepMind所采用的方法受到神经科学的启发，神经科学帮助我们在关键领域（例如想象、推理、记忆和学习）取得进展。以想象为例：这种人类独有的能力在我们的日常生活中起着至关重要的作用，使我们能够规划和思考未来，但是对于计算机来说，想象却是非常具有挑战性的。我们将继续努力解决这个问题，今年提出了一个想象力增强智能体（imagination-augmented agent），能够从环境中提取相关信息，以规划未来的工作。

当我们训练神经网络来控制模拟环境中的各种简化的身体形状时，这种神经科学启发的方法也创造了我们工作中最流行的演示之一。这种精密的电机控制是物理智能的标志，也是我们研究计划的重要组成部分。虽然由此产生的运动是疯狂的，有时不难看出，他们也是惊人的成功，并为娱乐观看。

d6418611983893a780647f2b3592d6c209ab2ab1

有点魔性的动作

这种神经科学启发的方法也创造了DeepMind今年最受欢迎的一个demo，我们训练了一个神经网络来控制一个再模拟的环境中的各种简化的人体运动。这种精密的电机控制是物理智能的一个标志，也是我们研究项目的一个重要组成部分。尽管由此产生的动作有些疯狂，有时也很笨拙，但已经是惊人的成功，而且也娱乐了观众。

我们知道技术并不是价值中立的。我们不能简单地在基础研究上取得进展，却不承担我们工作的伦理和社会影响。

另外，我们在生成模型领域也取得了进展。就在一年前，我们推出了WaveNet，这是一种用于生成原始音频波形的深度神经网络，能够产生比现有技术更好、更逼真的语音。那时，这个模型还是一个研究原型，它在消费产品中的计算密集程度太高。在今年，我们的团队创建了一个速度提高了1000倍的新模型。10月，我们公布了这个新的并行WaveNet现在已经被用在现实世界中，为Google Assistant生成美国英语和日语的声音。

3d371c325e9fb90fafba182120cf17949091186b

DeepMind与暴雪公司合作的星际争霸2研究训练平台SC2LE

这是我们为使构建、训练和优化AI系统更容易而努力的一个例子。我们今年研究的其他技术，例如分布式强化学习，基于群体（population）的神经网络训练，以及新的神经架构搜索方法，这些技术使系统更易于构建、优化更准确和快速。我们也投入了大量时间创造新的和具有挑战性的环境来测试我们的系统，包括我们与暴雪公司合作进行的星际争霸2的研究。

但我们知道，技术并不是中立的。我们不能仅仅在基础研究方面取得进展，却不承担我们的工作的伦理和社会影响。这推动了我们在一些关键领域的研究，例如可解释性，我们一直在探索新的方法来理解和解释AI系统是如何工作的。这也是为什么我们有一个成熟的技术安全团队，继续开发切实可行的方法，以确保未来的AI系统是可依赖的，并且这些系统处于人类控制之下。

a7b2b468980a5ff55d8a87322aa14a52c40a1d12

Streams已经与四家NHS信托基金合作

今年10月，我们又迈出一步，成立了DeepMind Ethics＆Society研究部门，它将帮助我们探索和理解AI在现实世界中的影响，以实现社会公益。这个部门的研究将由那些各自领域的著名专家——比如哲学家Nick Bostrom、气候变化专家Nick Bostrom、首席研究员Nick Bostrom，以及经济学家 Diane Coyle 和Jeffrey Sachs——来指导。

AI必须根据社会的优先级和关注点来构建，这就是为什么我们要与合作伙伴组织开展活动，开展关于AI应该如何设计和部署的讨论。例如，算法正义联盟（Algorithmic Justice League）的Joy Buolamwini，以及来自Article 36、人权观察组织和英国武装部队专家，在Wired Live的一场会议讨论了算法偏见问题和限制使用致命的自主武器。正如我们今年经常说的，这些问题都太重要了，它们的影响太大了，不容忽视。

这也是为什么我们在AI公司的内部和外部都需要新的空间，来讨论如何预测和指导技术的影响。其中一个例子是我们今年共同主导的Partnership on AI，它的任务是将行业内的伙伴、学术团体和民间组织都聚集在一起，讨论关键的AI伦理问题。在过去的一年里，PAI已经迎来43个新的非营利组织和营利性组织的成员，以及新的执行董事Terah Lyons。在接下来的几个月里，我们期待与这些人合作，一起研究广泛的研究主题，包括算法中的偏见和歧视，机器学习对自动化和劳动力的影响等等。

我们为2017年的取得所有进步感到骄傲，但我们知道还有很长的路要走。

我们也相信利用AI技术来实现实际的社会效益的重要性，而且也继续看到AI技术在现实世界中在医疗和能源方面产生巨大影响的潜力。今年，我们与NHS医院信托达成了两项新的合作伙伴关系，以部署Streams应用程序，这个app能够使用数字技术支持NHS的临床医生。

我们也是一个由领先研究机构组成的联盟的成员，他们发起了一项开创性的研究，以确定前沿的机器学习技术是否能够帮助改善乳腺癌的检测。

同时，我们在医疗AI的监督方面也一直在努力。

我们总结了信息专员关于我们与皇家自由的最初合作关系的经验教训，DeepMind Health的独立审稿人发表了他们的第一份关于DeepMind医疗AI的公开年度报告。他们的审查使我们的工作更好。我们在与患者和公众的接触方面取得了重大改进，包括与患者和医护人员进行的研讨会，同时我们也在探索在我们的系统中建立信任的技术方法，比如可验证的数据审计（verifiable data audit），我们计划将其作为开源工具发布。

我们对DeepMind在2017年取得的所有进展感到自豪，但我们也知道还有很长的路要走。

AlphaGo 在乌镇击败柯洁并从竞赛中退役的5个月之后，我们发表了第四篇Nature论文，描述一个名为AlphaGo Zero的新版本AlphaGo。AlphaGo Zero不使用任何人类知识，经过在数百万次自我对弈之后，这个系统逐渐从零开始学会了“下围棋”，短短几天就积累了人类数千年的知识。在此过程中，它还发现了非传统的策略，启发了有关这一古老棋类游戏的新认识。

我们的信念是：AI将能够在其他复杂问题上实现同样的成就，能够作为一个科学工具和人类智慧的增强。AlphaGo团队已经开始着手下一个重大挑战，我们希望他们借助围棋获得的算法上的启发仅仅是一个开始。

阅读全文

'); })();