比TD、MC、MCTS指數級快,性能超越A3C、DDQN等模型,這篇RL算法論文在Reddit上火了...

選自arxiv,做者:Jose A. Arjona-Medina、Michael Gillhofer、Michael Widrich、Thomas Unterthiner、Sepp Hochreiter,機器之心編譯。git 在強化學習中,延遲獎勵的存在會嚴重影響性能,主要表如今隨着延遲步數的增長,對時間差分(TD)估計誤差的糾正時間的指數級增加,和蒙特卡洛(MC)估計方差的指數級增加。針對這一問
相關文章
相關標籤/搜索