[Reinforcement Learning] Model-Free Prediction

上篇文章介紹了 Model-based 的通用方法——動態規劃,本文內容介紹 Model-Free 情況下 Prediction 問題,即 "Estimate the value function of an unknown MDP"。 Model-based:MDP已知,即轉移矩陣和獎賞函數均已知 Model-Free:MDP未知 蒙特卡洛學習 蒙特卡洛方法(Monte-Carlo Method
相關文章
相關標籤/搜索