深度增強學習David Silver（八）——Integrating Learning and Planning

時間 2021-01-02

原文原文鏈接

本節課主要講： Model-Based Reinforcement Learning Integrated Architectures Simulation-Based Search model用一個具有參數 η 的MDP ⟨S,A,P,R⟩ 表示。它告訴我們怎麼從一個狀態轉移到另一個狀態，和發生動作之後的獎勵。假設S和A都已知，則 Pη≈P,Rη≈R 。 model-free RL直接從經驗中學

>>阅读原文<<