【強化學習】AlphaGo Zero詳解

1 簡介 AlphaGo Zero(如下簡稱Zero)的過程以下圖a、b所示,在每一個狀態s,經過MCTS搜索,得到每一個可能move的機率p,其中MCTS搜索採用self-play並執行fθ策略。fθ主要採用微軟的ResNet,即基於殘差的學習。利用MCTS得到每一個可能move的機率p以後,更新fθ權重。最後利用這個fθ評估最後能贏這盤棋的機率v。網絡 2 MCTS 每一個節點s(狀態),包含
相關文章
相關標籤/搜索