AlphaZero 成全场焦点,认知科学大牛唱反调:生活不是一场 Kaggle 竞赛!
来源:互联网 发布:形势与政策论文 网络 编辑:程序博客网 时间:2024/04/30 03:47
Kinds of Intelligence 主要讨论了实现智能的多种途径,吸引了众多参会者前来。不少生物界、心理学界和认知科学界的专家分享了人工智能以外的研究。
DeepMind 的 CEO Demis Hassabis 也是此次研讨会的嘉宾。Hassabis 上台时,现场雷动。偌大的会议大厅座无虚席,连走道上都是参会者,逼得保安不得不过来安排下秩序。学术圈的大会热捧工业界的新星,也只有 DeepMind 能享受这番待遇。
Demis Hassabis
周二,DeepMind 公布了其围棋程序的最新迭代 AlphaZero。和 AlphaGo Zero 一样,AlphaZero 不需要人类的知识,完全靠自我对弈的强化学习,从零开始。不同的是,AlphaZero 拥有更强大的泛化能力,经过不到 24 小时的训练后,Alpha Zero 可以在国际象棋和日本将棋上击败目前业内顶尖的 AI 程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 AlphaGo Zero。
Hassabis 先介绍了 DeepMind 和 AlphaGo 的发展历程,然后着重介绍了 AlphaZero 是怎么从围棋泛化到国象和日本将棋上。
目前最前沿的国象 AI 程序依然使用 Alpha-Beta 搜索和启发算法。2016 年 TCEC 世界冠军 Stockfish 是这个领域最好的 AI 程序,但 Stockfish 依然需要大量手动调整,包括棋局表征、搜索、落子顺序、评估以及残局库。AlphaZero 呢?只需要基于自我对弈强化学习加自我对弈蒙特卡洛树搜索即可。同时,AlphaZero 可以完全在这三种不同的棋类游戏中泛化,三种棋类背后的算法和超参数完全相同。
AlphaZero 的战绩是显著的:对阵国象 AI 程序 Stockfish 是 28 胜 72 平 0 负;对阵将棋顶尖程序 Elmo 是 90 胜 2 平 8 负;对阵训练三天的 AlphaGo Zero 是 60 胜 40 负。
Hassabis 提到了有关 AlphaZero 的几个有趣的事实:下棋的每个决定都需要一定的搜索量。人类一般是 10 次,目前最先进的国象程序是 1000 万次,AlphaZero 则是 10000 次,介于两者之间;AlphaZero 下国象中,摒弃了许多人类的招数,比如 Kings Indian Defence、French Defence 和 Queen Pawn Game,这三种都是很常见的国象开局方式;AlphaZero 偏爱长期位置牺牲(long-term positional sacrifices),为了最后的赢面在前期牺牲掉部分棋子。
拥有更好泛化能力的 AlphaZero 让很多人相信人类离通用人工智能(AGI)又近了一步。然而,其他几位受邀嘉宾并不买账。东海岸的两位认知科学大牛——纽约大学的 Gary Marcus 和来自麻省理工大学的 Josh Tenenbaum 都不认为 AlphaZero 代表了 AGI 的研究方向。
Tenenbaum 认为智能不仅仅是将一个公式计算地特别好,而是思考到底解决什么样的问题。他提出了一个非常有意思的想法:建造一个像小孩子一样学习的机器。
Tenenbaum 向观众展示了一个视频:一个小孩看到大人双手捧着书,在一个关着门的书橱前踱步,小孩很自觉地走上前把门打开。这样的理解能力和操作能力,是机器做不到的。要建造这样的机器,需要三个步骤:建立一个具备常识的核心;用这个核心学习语言;用语言学习任何东西。
之后登场的 Marcus,更是圈内有名的「辩论手」(详细参见他十月和 Yann LeCun 的争论)。此次演讲,他还专门为了 AlphaZero 做了篇 PPT:AlphaZero 只适用于完美信息的游戏博弈,但并不适合通用人工智能。
Marcus 提出了一个有关「认知」的公式:Cognition=f(a, k ,e),其中 a 代表先天的算法,k 代表先天知识,e 代表经验。这个公式同样可以适用于 AlphaZero。完美信息棋盘博弈获得成功的条件是棋盘规则+经过人类编程的棋局表征,a 则是强化学习+蒙特卡洛树搜索+基于经验得到的超参数,即使没有了先天知识 k,AlphaZero 同样获得了成功。
但无论是围棋、将棋、国象,都和生活是不一样的:棋局是完美信息,但生活是不完美信息;棋局可以被完美模拟,生活却不可能;棋局里可以有无限的数据,而生活里的每个事物的数据量都不多;棋局里唯一要紧的是盘面状态,但生活中,什么都有要紧。
所以,在一个开放的世界里,先天的算法和先天的知识需求量都会增加,就不是 AlphaZero 可以应付的了。
Marcus 从 DeepMind 中得到的另一个结果是,即使是在完美信息的游戏中,一些先天的结构依然不可缺少,比如蒙特卡洛树算法。所以,他强调 AlphaGo Zero 以及 AlphaZero 不是所谓的「零知识」。这里的「零知识」只针对专有领域知识(domain knowledge),不包括像蒙特卡洛树搜索这样经过人类多年研究的算法。
最后,越说越激动的 Marcus 大声疾呼:「生活不是一场 Kaggle 竞赛!」
「在生活中,没有东西是被整齐的预先包装好的(像 Kaggle 里的数据集那样),没有人能保证你昨天的挑战和今天的挑战一样,你希望学习的是可以重复使用的技能和知识,并且可以用在未来的挑战里,而实现这种可重用性才应该是大家关注的重点。」
- AlphaZero 成全场焦点,认知科学大牛唱反调:生活不是一场 Kaggle 竞赛!
- Kaggle大数据竞赛平台入门
- Kaggle大数据竞赛平台入门
- 大数据竞赛平台——Kaggle 入门
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——Kaggle 入门
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——kaggle入门
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——Kaggle 入门
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——Kaggle 入门
- 大数据竞赛平台——Kaggle 入门
- 大数据竞赛平台——Kaggle 入门
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——Kaggle 入门篇
- 大数据竞赛平台——Kaggle 入门篇
- 创建dataguard -- 使用备份创建
- Go语言RESTful API开发实战
- [HDU]2121 Ice_cream’s world II 朱刘算法(不固定根)
- hanooi汉诺塔递归问题
- 第十五周项目一(8)——验证算法之基数排序
- AlphaZero 成全场焦点,认知科学大牛唱反调:生活不是一场 Kaggle 竞赛!
- eclipse快捷键
- android包反编译相关
- 扫雷增强版
- HDOJ1408 盐水的故事(高精度)
- 手把手教你完成App端-微信支付Android
- 2017-12-09 杭电OJ2000 《ASCII码排序》
- android学习路线
- iOS开发UI篇—Quartz2D (四) 图形上下文栈,矩阵