深度增強學習David Silver(八)——Integrating Learning and Planning

本節課主要講: Model-Based Reinforcement Learning Integrated Architectures Simulation-Based Search model用一個具有參數 η 的MDP ⟨S,A,P,R⟩ 表示。它告訴我們怎麼從一個狀態轉移到另一個狀態,和發生動作之後的獎勵。假設S和A都已知,則 Pη≈P,Rη≈R 。 model-free RL直接從經驗中學
相關文章
相關標籤/搜索