從AlphaGo 看 Monte Carlo Tree Search

1 Markov 決策過程 1.1 Markov 過程 簡單介紹離散時間有限狀態的Markov過程 一個離散時間有限狀態隨機過程可以表示爲一個三元組 {T,S,P} T :指標集,可以簡單的看爲時間點 S :狀態集,所有可能出現的狀態 P : S×S→[0,1] 狀態轉移概率,表示從狀態 pij=P(si→sj) {X0,X1,X2,..,Xn,...} Xn∈S,n>=0 是其狀態序列. 如果
相關文章
相關標籤/搜索