David Silver 強化學習Lecture5：Model-Free Control

時間 2021-01-12

原文原文鏈接

David Silver強化學習系列博客的內容整理自David Silver 強化學習的PPT和知乎葉強強化學習專欄。 1 Introduction 第四章節的內容講述了agent在不依賴模型的情況下如何進行預測，也就是求解在給定策略下的狀態價值或行爲價值函數。本章節則主要講解在不基於模型的條件下如何通過agent的學習優化價值函數，同時改善自身行爲的策略以最大化獲得累積獎勵的過程

>>阅读原文<<