[Reinforcement Learning] Model-Free Prediction

時間 2021-01-11

原文原文鏈接

[Reinforcement Learning] Model-Free Prediction 蒙特卡洛學習蒙特卡洛方法（Monte-Carlo Methods，簡稱MC）也叫做蒙特卡洛模擬，是指使用隨機數（或更常見的僞隨機數）來解決很多計算問題的方法。其實本質就是，通過儘可能隨機的行爲產生後驗，然後通過後驗來表徵目標系統。在Model-Free的情況下，MC在強化學習中的應用就是獲取價值函數，