AlphaGo原理浅析

来源：互联网发布：想在淘宝开店没货源编辑：程序博客网时间：2024/06/06 00:22

AlphaGo

论文：
　　AlphaGo:《Mastering the game of Go with deep neural networks and tree search》

核心部件：

　　- 监督学习的策略网络(SL policy network)
　　　　13layers CNN network
　　　　输入：当前state
　　　　输出：所有可能action的概率分布
　　　　更新策略：
　　　　　　

Δ σ \propto \partial log p σ ( a | s ) \partial σ

　　- 速度快但准确率不如SL的策略网络(fast rollout policy network)
　　linear softmax of small pattern features with weights

π
　　　　
　　- 强化学习的策略网络(RL policy)
　　网络结构与SL相同，所有参数初始化为与SL参数相同,即在SL的基础上利用policy gradient reinforcement learning再进行训练。
　　　　

Δ ρ \propto \partial log p ρ ( a t | s t ) \partial ρ z t

　　其中，

rewardzt={01t is non-terminal time stept is terminal time step
　　- 价值评估网络(value network)
　　评估在状态s下采取策略p
　　

v p (s) = E [z t | s t = s, a t . . . T \sim p]

　　理想状态下，我们可以有一个最优的value function

v∗(s),但实际上，我们利用RL policy network估计

vpρ来近似

v∗(s).value network的目标就是建立以

θ为参数的网络，输出

vθ(s),

vθ(s)≈vpρ≈v∗(s).
　　网络目标是最小化估计值

vθ(s)与对应输出z之间的均方误差
　　

Δ θ \propto \partial v θ ( s ) \partial θ (z - v θ (s))

骨架：

　　MCTS(Monte Carlo Tree Search)
　　 Monte Carlo Tree Search in AlphaGo
　　Selection:
　　每条边(s,a)存储了action valueQ(s,a),访问次数N(s,a),先验概率P(s,a).在每次仿真中，从根节点开始，t时刻位于状态st时，根据