David Silver 強化學習Lecture5:Model-Free Control

    David Silver強化學習系列博客的內容整理自David Silver 強化學習的PPT和知乎葉強強化學習專欄。 1 Introduction     第四章節的內容講述了agent在不依賴模型的情況下如何進行預測,也就是求解在給定策略下的狀態價值或行爲價值函數。本章節則主要講解在不基於模型的條件下如何通過agent的學習優化價值函數,同時改善自身行爲的策略以最大化獲得累積獎勵的過程
相關文章
相關標籤/搜索