Reinforcement Learning_By David Silver筆記四: Model Free Prediction

時間 2021-01-02

原文原文鏈接

前面的動態規劃主要用來解決model已知的MDP問題，這裏主要解決model/環境未知時的MDP預估價值函數問題，方法主要有： MC方法：不需要知道轉移矩陣或回報矩陣，在非馬爾科夫環境中高效時序差分方法： Monte-Carlo Learning 直接從experience的episode中學習不需要MDP的transition、rewards 主要思想：value = mean return

>>阅读原文<<