強化學習論文筆記:Real-Time Reinforcement Learning

Real-time Reinforcement Learning   簡介 NeurIPS 2019上蒙特利爾大學的工作 在連續時間的決策任務中,環境在動作選擇時是實時變化的。作者定義了實時馬爾可夫決策過程(RTMDP)並提出強化學習算法Real-Time Actor-Critic(RTAC),相比於傳統方法能夠更好地學習實時環境下的最優策略   問題 存在動作選擇延遲的連續時間馬爾可夫環境下的實
相關文章
相關標籤/搜索