強化學習論文筆記：Real-Time Reinforcement Learning

時間 2021-01-21

標籤論文閱讀強化學習學習筆記简体版

原文原文鏈接

Real-time Reinforcement Learning 簡介 NeurIPS 2019上蒙特利爾大學的工作在連續時間的決策任務中，環境在動作選擇時是實時變化的。作者定義了實時馬爾可夫決策過程（RTMDP）並提出強化學習算法Real-Time Actor-Critic（RTAC），相比於傳統方法能夠更好地學習實時環境下的最優策略問題存在動作選擇延遲的連續時間馬爾可夫環境下的實

>>阅读原文<<