論文《Masteing the game of Go without human knowledge》解讀

1、整體解讀 AlphaGo Zero中使用的是強化學習方法,使用的深度神經網絡記爲 fθ f θ (其中 θ θ 是網絡的參數)。網絡的輸入是棋盤狀態 s s ( s s 中表示了當前玩家落子的信息,對手的落子信息,棋盤最後一步落子的信息,當前的棋盤轉態誰是先手等信息,即棋盤的歷史信息和當前信息)。網絡的輸出是 (p,v) ( p , v ) ,其中 p p 是當前玩家在局面 s s 狀態下,即
相關文章
相關標籤/搜索