程序博客网 > linux shadow密码破解

AlphaGo Zero原理浅析

来源：互联网发布：linux shadow密码破解编辑：程序博客网时间：2024/06/05 10:16

AlphaGo Zero

论文：《Mastering the game of Go without human knowledge》

AlphaGo与AlphaGo Zero主要有以下几点不同：

AlphaGo中用了３个policy network,AlphaGo Zero只用了一个reinforcement learning network
AlphaGo Zero将policy network,value network合并
AlphaGo Zero中没有Monte Carlo rollout
AlphaGo Zero的RL network用了残差卷积网络

Reinforcement Learning Network

　　在AlphaGo Zero中只用了一个network，同时输出了action probability和value.输入是当前状态，即将当前棋盘图片输入。network用的是残差卷积网络，加了batch normalization和非线性激活函数。

f θ = (p, v)

l o s s = (z - v) 2 - π T log p + c | | θ | | 2

骨架

　　AlphaGo Zero的骨架同样是MCTS.

　　树上每一个节点表示状态s，边表示(s,a),每条边存储{N(s,a),W(s,a),Q(s,a),P(s,a)}, N(s,a)表示被访问次数,W(s,a)表示总的action value,Q(s,a)表示平均action value,P(s,a)表示选择(s,a)的概率。

Select

　　这一步与AlphaGo一样，从根节点s0开始，根据

a t = a r g m a x a (Q (s t, a) + u (s t, a))

选择动作，直到叶子节点

sL,其中

U (s, a) = c p u c t P (s, a) Σ b N ( s , b ) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt 1 + N ( s , a )

cpuct是决定探索程度的常数，这一搜索策略在初始化时倾向于选择高先验概率，低访问次数的action,但渐渐地倾向于高action value的action.

Expand and evaluate

　　叶子节点sL经过RL network计算action value v,此时搜索过程被封锁。叶子节点sL会被expand,并初始化为 {N(sL,a)=0,W(sL,a)=0,Q(sL,a)=0,P(sL,a)=pa}.　　

Backup

　　对叶子节点进行expand之后，接下来要对之前经历过的节点信息进行更新。

N (s t, a t) = N (s t, a t) + 1

W (s t, a t) = W (s t, a t) + v

Q (s t, a t) = W ( s t , a t ) N ( s t , a t )

　　

Training　　

　　从状态s1开始，Monte Carlo树对每个状态t计算

π (a | s 0) = N (s 0, a) 1 / τ / Σ b N (s 0, b) 1 / τ

其中，

τ是控制探索程度的参数。同时，RL会计算出

(p, v) = f θ (s t)

直到T时刻，得出最终胜负，即得到reward

z,接着就会反向传播更新RL network.
　　

　　

阅读全文

0 0

linux shadow密码破解

linux shadow密码破解

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子拖车绳打结图解拖车价格怎么算的大型拖车图片后八轮平板拖车东风平板拖车平板拖车图片拖拉机平板拖车蓝牌拖车多少钱一辆广州拖车救援高速公路拖车救援拖车价格多少交通事故拖车费叫一次拖车的价格拖车一公里多少钱救援车拖车价格 24小时拖车救援 24小时拖车电话道路救援拖车电话挖掘机拖车报价清障车拖车多少钱北京拖车公司交通事故拖车拖车费用怎么算叫拖车怎么收费小型平板拖车附近救援拖车电话电动车拖车器昆明拖车电话道路救援车拖车报价上海拖车价格钩机拖车价格长沙拖车电话叫拖车多少钱大型拖车价格表集装箱拖车价格苏州拖车电话大型平板拖车道路清障车拖车价格挖掘机拖车平板车交警拖车费用拖车发电机组