論文《Masteing the game of Go without human knowledge》解讀

時間 2021-07-14

原文原文鏈接

1、整體解讀 AlphaGo Zero中使用的是強化學習方法，使用的深度神經網絡記爲 fθ f θ (其中 θ θ 是網絡的參數)。網絡的輸入是棋盤狀態 s s ( s s 中表示了當前玩家落子的信息，對手的落子信息，棋盤最後一步落子的信息，當前的棋盤轉態誰是先手等信息，即棋盤的歷史信息和當前信息)。網絡的輸出是 (p,v) ( p , v ) ,其中 p p 是當前玩家在局面 s s 狀態下，即

>>阅读原文<<