[Reinforcement Learning] Model-Free Prediction

時間 2021-01-11

原文原文鏈接

上篇文章介紹了 Model-based 的通用方法——動態規劃，本文內容介紹 Model-Free 情況下 Prediction 問題，即 "Estimate the value function of an unknown MDP"。 Model-based：MDP已知，即轉移矩陣和獎賞函數均已知 Model-Free：MDP未知蒙特卡洛學習蒙特卡洛方法（Monte-Carlo Method