AlphaZero 成全场焦点，认知科学大牛唱反调：生活不是一场 Kaggle 竞赛！

来源：互联网发布：形势与政策论文网络编辑：程序博客网时间：2024/04/30 03:47

Kinds of Intelligence 主要讨论了实现智能的多种途径，吸引了众多参会者前来。不少生物界、心理学界和认知科学界的专家分享了人工智能以外的研究。

DeepMind 的 CEO Demis Hassabis 也是此次研讨会的嘉宾。Hassabis 上台时，现场雷动。偌大的会议大厅座无虚席，连走道上都是参会者，逼得保安不得不过来安排下秩序。学术圈的大会热捧工业界的新星，也只有 DeepMind 能享受这番待遇。

Demis Hassabis

周二，DeepMind 公布了其围棋程序的最新迭代 AlphaZero。和 AlphaGo Zero 一样，AlphaZero 不需要人类的知识，完全靠自我对弈的强化学习，从零开始。不同的是，AlphaZero 拥有更强大的泛化能力，经过不到 24 小时的训练后，Alpha Zero 可以在国际象棋和日本将棋上击败目前业内顶尖的 AI 程序（这些程序早已超越人类世界冠军水平），也可以轻松击败训练 3 天时间的 AlphaGo Zero。

Hassabis 先介绍了 DeepMind 和 AlphaGo 的发展历程，然后着重介绍了 AlphaZero 是怎么从围棋泛化到国象和日本将棋上。

目前最前沿的国象 AI 程序依然使用 Alpha-Beta 搜索和启发算法。2016 年 TCEC 世界冠军 Stockfish 是这个领域最好的 AI 程序，但 Stockfish 依然需要大量手动调整，包括棋局表征、搜索、落子顺序、评估以及残局库。AlphaZero 呢？只需要基于自我对弈强化学习加自我对弈蒙特卡洛树搜索即可。同时，AlphaZero 可以完全在这三种不同的棋类游戏中泛化，三种棋类背后的算法和超参数完全相同。

AlphaZero 的战绩是显著的：对阵国象 AI 程序 Stockfish 是 28 胜 72 平 0 负；对阵将棋顶尖程序 Elmo 是 90 胜 2 平 8 负；对阵训练三天的 AlphaGo Zero 是 60 胜 40 负。

Hassabis 提到了有关 AlphaZero 的几个有趣的事实：下棋的每个决定都需要一定的搜索量。人类一般是 10 次，目前最先进的国象程序是 1000 万次，AlphaZero 则是 10000 次，介于两者之间；AlphaZero 下国象中，摒弃了许多人类的招数，比如 Kings Indian Defence、French Defence 和 Queen Pawn Game，这三种都是很常见的国象开局方式；AlphaZero 偏爱长期位置牺牲（long-term positional sacrifices），为了最后的赢面在前期牺牲掉部分棋子。

拥有更好泛化能力的 AlphaZero 让很多人相信人类离通用人工智能（AGI）又近了一步。然而，其他几位受邀嘉宾并不买账。东海岸的两位认知科学大牛——纽约大学的 Gary Marcus 和来自麻省理工大学的 Josh Tenenbaum 都不认为 AlphaZero 代表了 AGI 的研究方向。

Tenenbaum 认为智能不仅仅是将一个公式计算地特别好，而是思考到底解决什么样的问题。他提出了一个非常有意思的想法：建造一个像小孩子一样学习的机器。

Tenenbaum 向观众展示了一个视频：一个小孩看到大人双手捧着书，在一个关着门的书橱前踱步，小孩很自觉地走上前把门打开。这样的理解能力和操作能力，是机器做不到的。要建造这样的机器，需要三个步骤：建立一个具备常识的核心；用这个核心学习语言；用语言学习任何东西。

之后登场的 Marcus，更是圈内有名的「辩论手」（详细参见他十月和 Yann LeCun 的争论）。此次演讲，他还专门为了 AlphaZero 做了篇 PPT：AlphaZero 只适用于完美信息的游戏博弈，但并不适合通用人工智能。

Marcus 提出了一个有关「认知」的公式：Cognition=f（a, k ,e），其中 a 代表先天的算法，k 代表先天知识，e 代表经验。这个公式同样可以适用于 AlphaZero。完美信息棋盘博弈获得成功的条件是棋盘规则+经过人类编程的棋局表征，a 则是强化学习+蒙特卡洛树搜索+基于经验得到的超参数，即使没有了先天知识 k，AlphaZero 同样获得了成功。

但无论是围棋、将棋、国象，都和生活是不一样的：棋局是完美信息，但生活是不完美信息；棋局可以被完美模拟，生活却不可能；棋局里可以有无限的数据，而生活里的每个事物的数据量都不多；棋局里唯一要紧的是盘面状态，但生活中，什么都有要紧。

所以，在一个开放的世界里，先天的算法和先天的知识需求量都会增加，就不是 AlphaZero 可以应付的了。

Marcus 从 DeepMind 中得到的另一个结果是，即使是在完美信息的游戏中，一些先天的结构依然不可缺少，比如蒙特卡洛树算法。所以，他强调 AlphaGo Zero 以及 AlphaZero 不是所谓的「零知识」。这里的「零知识」只针对专有领域知识（domain knowledge），不包括像蒙特卡洛树搜索这样经过人类多年研究的算法。

最后，越说越激动的 Marcus 大声疾呼：「生活不是一场 Kaggle 竞赛！」

「在生活中，没有东西是被整齐的预先包装好的（像 Kaggle 里的数据集那样），没有人能保证你昨天的挑战和今天的挑战一样，你希望学习的是可以重复使用的技能和知识，并且可以用在未来的挑战里，而实现这种可重用性才应该是大家关注的重点。」

阅读全文

1 0