從AlphaGo 看 Monte Carlo Tree Search

時間 2020-12-23

原文原文鏈接

1 Markov 決策過程 1.1 Markov 過程簡單介紹離散時間有限狀態的Markov過程一個離散時間有限狀態隨機過程可以表示爲一個三元組 {T,S,P} T :指標集，可以簡單的看爲時間點 S :狀態集，所有可能出現的狀態 P : S×S→[0,1] 狀態轉移概率,表示從狀態 pij=P(si→sj) {X0,X1,X2,..,Xn,...} Xn∈S,n>=0 是其狀態序列. 如果

>>阅读原文<<