David Silver 強化學習Lecture4：Model-Free Prediction

時間 2021-01-12

原文原文鏈接

David Silver強化學習系列博客的內容整理自David Silver 強化學習的PPT和知乎葉強強化學習專欄。 1 Introduction 前三節筆記中，通過動態規劃能夠解決環境已知的MDP問題，也就是已知 <S,A,P,R,γ> < S , A , P , R , γ > ，已知environment即已知轉移矩陣 P P 與reward函數 R R 。但是很多問題中e

>>阅读原文<<