AlphaGo Zero 模型框架

Intro 上一篇blog提到了Mento Carlo樹搜索的一些基本概念和要點,在結尾也說道AlphaGo 和AlphaGo Zero在MCTS下使用了神經網絡作爲模擬策略. 本文主要說一說AlphaGo Zero如何將MCTS 組合起來的. 爲了方便描述,需要強調的是,在MCTS樹裏面,每一個節點表示的是一個局面,即棋盤上所有已有的棋子的位置. 注意到下圍棋是一個Markov 決策過程,當前的
相關文章
相關標籤/搜索