比TD、MC、MCTS指數級快，性能超越A3C、DDQN等模型，這篇RL算法論文在Reddit上火了...

時間 2020-01-18

標籤 mcts 指數性能超越 a3c ddqn 模型算法論文 reddit 上火欄目系統性能简体版

原文原文鏈接

選自arxiv，做者：Jose A. Arjona-Medina、Michael Gillhofer、Michael Widrich、Thomas Unterthiner、Sepp Hochreiter，機器之心編譯。git 在強化學習中，延遲獎勵的存在會嚴重影響性能，主要表如今隨着延遲步數的增長，對時間差分（TD）估計誤差的糾正時間的指數級增加，和蒙特卡洛（MC）估計方差的指數級增加。針對這一問

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。