AlphaGo Zero 总结

来源：互联网发布：体彩终端机网络连接编辑：程序博客网时间：2024/05/16 00:35

参考了各教授对AlphaGo Zero的分析，整理笔记如下：

3天内——AlphaGo Zero进行过490万次自我对弈练习，并干掉AlphaGo Lee，这说明模型训练速度干净，准确，没有在那里玩太极。
强化学习 Policy network 和 value network 整合在一起，结构更简洁；共享参数，效率更高。
两个核心要素 : 一个是启发式搜索，一个是深度残差神经网络，而这两者又实现了完美结合。其中，启发式搜索的思想非常朴素，是个针对问题设计的一个高级定制版蒙特卡洛数搜索算法；而深度残差神经网络则让简单的搜索算法极大地提升了效率。
- 网络框架 - CNN 和 ResNet 残差网络，利用这种架构的自学习过程和人类世界中围棋的演化有大量的相似点。
- 蒙特卡罗树搜索
三就是更证明了在理论上理解深度学习算法的重要性。对于人类直觉能触及到的问题，机器通过采用有相同或者相似的 induction bias 结构的模型，可以去解决。但是人不知道它是如何做到的，所以除了反复尝试之外，人并不知道如何针对新问题的关键特性去改进它。如果能在理论上定量地理解深度学习在不同的数据分布上如何工作，那么我相信到那时我们回头看来，针对什么问题，什么数据，用什么结构的模型会是很容易的事情。我坚信数据的结构是解开深度学习神奇效果的钥匙。
另外推测一下为什么要用 MCTS 而不用强化学习的其它方法（我不是 DM 的人，所以肯定只能推测了）。MCTS 其实是在线规划（online planning）的一种，从当前局面出发，以非参数方式估计局部 Q 函数，然后用局部 Q 函数估计去决定下一次 rollout 要怎么走。既然是规划，MCTS 的限制就是得要知道环境的全部信息，及有完美的前向模型（forward model），这样才能知道走完一步后是什么状态。围棋因为规则固定，状态清晰，有完美快速的前向模型，所以 MCTS 是个好的选择。但要是用在 Atari 上的话，就得要在训练算法中内置一个 Atari 模拟器，或者去学习一个前向模型（forward model），相比 actor-critic 或者 policy gradient 可以用当前状态路径就地取材，要麻烦得多。但如果能放进去那一定是好的，像 Atari 这样的游戏，要是大家用 MCTS 我觉得可能不用学 policy 直接当场 planning 就会有很好的效果。很多文章都没比，因为比了就不好玩了。(–田渊栋)
Zero这种‘无师自通’在很多AI落地中也存在一些局限，因为严格讲，围棋规则和判定棋局输赢也是一种监督信号。因此，说人类无用，或者说机器可以自己产生认知，都没有准确地理解AlphaGo Zero。

围棋是完全信息透明的，所有合法状态的数量级是 10^170

延伸阅读：
强化学习 是机器学习中的一个重要研究领域，它以试错的机制与环境进行交互，通过最大化累积奖赏来学习最优策略。强化学习的框架如图1所示。强化学习智能体在当前状态st下根据策略π来选择动作at。环境接收该动作并转移到下一状态st+1，智能体接收环境反馈回来的奖赏rt并根据策略选择下一步动作。强化学习不需要监督信号，在模型未知的环境中平衡探索和利用，其主要算法有Q学习，策略梯度等。Q学习是强化学习最重要的算法之一，其主要更新公式为：

重点内容
其中α是学习率，γ是折扣因子，方括号内表示的是TD误差。强化学习由于其优秀的决策能力在人工智能领域也得到了广泛应用，代表工作TD-Gammon。

图1.强化学习框架图

在通用人工智能领域，感知和决策能力都是衡量一个智能体所蕴含智能的关键指标。早期成功的强化

未完待续。。

阅读全文

0 0