浅谈AlphaGo

来源:互联网 发布:seo学习书籍 编辑:程序博客网 时间:2024/06/04 19:52

       由DeepMind团队开发的AlphaGo的大放异彩使得研究者对人工智能、深度学习等有了更深入的了解和更多的信心。
       在AlphaGo之前,由IBM开发的智能国际象棋系统Deep Blue也击败了世界冠军。但是Deep Blue和AlphaGo的核心技术有很大差别,前者主要是依赖于超级强大的计算机资源,使用brute-force的方法尝试很多走棋方法,是通过优越的计算处理速度来战胜人类,而后者AlphaGo则是采用了深度学习和强化学习,进行更加智能的判断,因为相比于国际象棋走棋的复杂度 10^46 ,围棋有更多的落子方式,有更多的不确定性,复杂度有10^172 。
       AlphaGo主要包含3部分:蒙特卡洛树搜索(Monte Carlo tree search)、估值网络(value network)走棋网络(policy network)。Value network和policy network是AlphaGo的真正智慧所在。
       Policy network实际上就是提供走棋策略,针对给定的当前棋盘,预测下一步应该在哪里落子。这一步涉及到了学徒学习,根据人类专家的决策过程范例,比如大量人类围棋高手对弈的棋谱,将人类专家决策轨迹数据(轨迹包含state/棋盘和action/落子序列)中的“state-action对“抽取出来,构造新的数据集。基于构造的数据集,学习得到策略模型,能以57%的准确率预测人类围棋高手下一步的落子点。这在走棋方式繁多的围棋中,已经是很高的准确率了。
       Value network主要是做评估,针对当前棋盘,判断黑棋赢的概率。AlphaGo主要是通过落子网络自己与自己对弈,产生数据集,训练估值网络,进一步提升落子准确率。
       与Deep Blue的纯暴力搜索不同,Monte Carlo tree search会根据Policy network和Value network给出的策略和估值,评估采取当前落子行为后的局势,进而选择最佳走棋动作。

0 0