Pachi中的蒙特卡洛樹搜索,AMAF,Rave

蒙特卡洛樹搜索: MCTS使用蒙特卡洛模擬來估計每個節點的價值. 其默認策略爲貪婪算法, 即每次選擇價值最高的節點進行模擬, 在每次模擬得到結果後, 將結果反饋回每個上級節點, 更新節點價值. 通常來講, 每個訪問到的節點都會加入到樹中, 實際上爲了節省內存每次只加入一個子節點, 可以通過對舊節點剪枝或多次模擬後再加入新節點來進一步節省內存.    貪婪算法的缺點在於對於一個節點, 如果產生了一次
相關文章
相關標籤/搜索