【強化學習】AlphaGo Zero詳解

時間 2019-12-09

標籤強化學習 alphago zero 詳解简体版

原文原文鏈接

1 簡介 AlphaGo Zero（如下簡稱Zero）的過程以下圖a、b所示，在每一個狀態s，經過MCTS搜索，得到每一個可能move的機率p，其中MCTS搜索採用self-play並執行fθ策略。fθ主要採用微軟的ResNet，即基於殘差的學習。利用MCTS得到每一個可能move的機率p以後，更新fθ權重。最後利用這個fθ評估最後能贏這盤棋的機率v。網絡 2 MCTS 每一個節點s（狀態），包含

>>阅读原文<<