論文筆記:Dyna, an Integrated Architecture for Learning, Planning, and Reacting

文章基本概況 標題:Dyna, an Integrated Architecture for Learning, Planning, and Reacting 作者:Richard S. Sutton,強化學習教父,被認爲是現代計算的強化學習創立者之一。他爲該領域做出了許多重大貢獻,包括:時間差分學習(temporal difference learning)、策略梯度方法(policy grad
相關文章
相關標籤/搜索