AlphaZero 成全场焦点,认知科学大牛唱反调:生活不是一场 Kaggle 竞赛!

来源:互联网 发布:形势与政策论文 网络 编辑:程序博客网 时间:2024/04/30 03:47

Kinds of Intelligence 主要讨论了实现智能的多种途径,吸引了众多参会者前来。不少生物界、心理学界和认知科学界的专家分享了人工智能以外的研究。

DeepMind 的 CEO Demis Hassabis 也是此次研讨会的嘉宾。Hassabis 上台时,现场雷动。偌大的会议大厅座无虚席,连走道上都是参会者,逼得保安不得不过来安排下秩序。学术圈的大会热捧工业界的新星,也只有 DeepMind 能享受这番待遇。

Demis Hassabis

周二,DeepMind 公布了其围棋程序的最新迭代 AlphaZero。和 AlphaGo Zero 一样,AlphaZero 不需要人类的知识,完全靠自我对弈的强化学习,从零开始。不同的是,AlphaZero 拥有更强大的泛化能力,经过不到 24 小时的训练后,Alpha Zero 可以在国际象棋和日本将棋上击败目前业内顶尖的 AI 程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 AlphaGo Zero。

Hassabis 先介绍了 DeepMind 和 AlphaGo 的发展历程,然后着重介绍了 AlphaZero 是怎么从围棋泛化到国象和日本将棋上。

目前最前沿的国象 AI 程序依然使用 Alpha-Beta 搜索和启发算法。2016 年 TCEC 世界冠军 Stockfish 是这个领域最好的 AI 程序,但 Stockfish 依然需要大量手动调整,包括棋局表征、搜索、落子顺序、评估以及残局库。AlphaZero 呢?只需要基于自我对弈强化学习加自我对弈蒙特卡洛树搜索即可。同时,AlphaZero 可以完全在这三种不同的棋类游戏中泛化,三种棋类背后的算法和超参数完全相同。

AlphaZero 的战绩是显著的:对阵国象 AI 程序 Stockfish 是 28 胜 72 平 0 负;对阵将棋顶尖程序 Elmo 是 90 胜 2 平 8 负;对阵训练三天的 AlphaGo Zero 是 60 胜 40 负。

Hassabis 提到了有关 AlphaZero 的几个有趣的事实:下棋的每个决定都需要一定的搜索量。人类一般是 10 次,目前最先进的国象程序是 1000 万次,AlphaZero 则是 10000 次,介于两者之间;AlphaZero 下国象中,摒弃了许多人类的招数,比如 Kings Indian Defence、French Defence 和 Queen Pawn Game,这三种都是很常见的国象开局方式;AlphaZero 偏爱长期位置牺牲(long-term positional sacrifices),为了最后的赢面在前期牺牲掉部分棋子。

拥有更好泛化能力的 AlphaZero 让很多人相信人类离通用人工智能(AGI)又近了一步。然而,其他几位受邀嘉宾并不买账。东海岸的两位认知科学大牛——纽约大学的 Gary Marcus 和来自麻省理工大学的 Josh Tenenbaum 都不认为 AlphaZero 代表了 AGI 的研究方向。

Tenenbaum 认为智能不仅仅是将一个公式计算地特别好,而是思考到底解决什么样的问题。他提出了一个非常有意思的想法:建造一个像小孩子一样学习的机器。

Tenenbaum 向观众展示了一个视频:一个小孩看到大人双手捧着书,在一个关着门的书橱前踱步,小孩很自觉地走上前把门打开。这样的理解能力和操作能力,是机器做不到的。要建造这样的机器,需要三个步骤:建立一个具备常识的核心;用这个核心学习语言;用语言学习任何东西。

之后登场的 Marcus,更是圈内有名的「辩论手」(详细参见他十月和 Yann LeCun 的争论)。此次演讲,他还专门为了 AlphaZero 做了篇 PPT:AlphaZero 只适用于完美信息的游戏博弈,但并不适合通用人工智能。

Marcus 提出了一个有关「认知」的公式:Cognition=f(a, k ,e),其中 a 代表先天的算法,k 代表先天知识,e 代表经验。这个公式同样可以适用于 AlphaZero。完美信息棋盘博弈获得成功的条件是棋盘规则+经过人类编程的棋局表征,a 则是强化学习+蒙特卡洛树搜索+基于经验得到的超参数,即使没有了先天知识 k,AlphaZero 同样获得了成功。

但无论是围棋、将棋、国象,都和生活是不一样的:棋局是完美信息,但生活是不完美信息;棋局可以被完美模拟,生活却不可能;棋局里可以有无限的数据,而生活里的每个事物的数据量都不多;棋局里唯一要紧的是盘面状态,但生活中,什么都有要紧。

所以,在一个开放的世界里,先天的算法和先天的知识需求量都会增加,就不是 AlphaZero 可以应付的了。

Marcus 从 DeepMind 中得到的另一个结果是,即使是在完美信息的游戏中,一些先天的结构依然不可缺少,比如蒙特卡洛树算法。所以,他强调 AlphaGo Zero 以及 AlphaZero 不是所谓的「零知识」。这里的「零知识」只针对专有领域知识(domain knowledge),不包括像蒙特卡洛树搜索这样经过人类多年研究的算法。

最后,越说越激动的 Marcus 大声疾呼:「生活不是一场 Kaggle 竞赛!

在生活中,没有东西是被整齐的预先包装好的(像 Kaggle 里的数据集那样),没有人能保证你昨天的挑战和今天的挑战一样,你希望学习的是可以重复使用的技能和知识,并且可以用在未来的挑战里,而实现这种可重用性才应该是大家关注的重点。

原创粉丝点击