浅谈AlphaGo

来源：互联网发布：seo学习书籍编辑：程序博客网时间：2024/06/04 19:52

由DeepMind团队开发的AlphaGo的大放异彩使得研究者对人工智能、深度学习等有了更深入的了解和更多的信心。
在AlphaGo之前，由IBM开发的智能国际象棋系统Deep Blue也击败了世界冠军。但是Deep Blue和AlphaGo的核心技术有很大差别，前者主要是依赖于超级强大的计算机资源，使用brute-force的方法尝试很多走棋方法，是通过优越的计算处理速度来战胜人类，而后者AlphaGo则是采用了深度学习和强化学习，进行更加智能的判断，因为相比于国际象棋走棋的复杂度 10^46 ，围棋有更多的落子方式，有更多的不确定性，复杂度有10^172 。
AlphaGo主要包含3部分：蒙特卡洛树搜索（Monte Carlo tree search）、估值网络（value network）、走棋网络（policy network）。Value network和policy network是AlphaGo的真正智慧所在。
Policy network实际上就是提供走棋策略，针对给定的当前棋盘，预测下一步应该在哪里落子。这一步涉及到了学徒学习，根据人类专家的决策过程范例，比如大量人类围棋高手对弈的棋谱，将人类专家决策轨迹数据（轨迹包含state/棋盘和action/落子序列）中的“state-action对“抽取出来，构造新的数据集。基于构造的数据集，学习得到策略模型，能以57%的准确率预测人类围棋高手下一步的落子点。这在走棋方式繁多的围棋中，已经是很高的准确率了。
Value network主要是做评估，针对当前棋盘，判断黑棋赢的概率。AlphaGo主要是通过落子网络自己与自己对弈，产生数据集，训练估值网络，进一步提升落子准确率。
与Deep Blue的纯暴力搜索不同，Monte Carlo tree search会根据Policy network和Value network给出的策略和估值，评估采取当前落子行为后的局势，进而选择最佳走棋动作。

0 0