DRL(八)—— Monte Carlo Tree Search (MCTS)

一個比較有意思的在離散情況下的 planning 方式。 之所以叫做tree search,我覺得就是因爲這種方法就是像樹杈一樣從根部到樹葉不斷地搜索。就像下圖這樣: 要注意的是: 每個節點的含義,並不是每個state,而是採取某個特定的action後到達的state,這個state可以是不同的。比如說,從 s 1 s_1 s1​開始,我們如果執行action a 1   =   0 a_1~=~
相關文章
相關標籤/搜索