DRL（八）—— Monte Carlo Tree Search (MCTS)

時間 2020-12-23

標籤 DRL 简体版

原文原文鏈接

一個比較有意思的在離散情況下的 planning 方式。之所以叫做tree search，我覺得就是因爲這種方法就是像樹杈一樣從根部到樹葉不斷地搜索。就像下圖這樣：要注意的是：每個節點的含義，並不是每個state，而是採取某個特定的action後到達的state，這個state可以是不同的。比如說，從 s 1 s_1 s1開始，我們如果執行action a 1 = 0 a_1~=~

>>阅读原文<<