[Reinforcement Learning] Model-Free Prediction

[Reinforcement Learning] Model-Free Prediction 蒙特卡洛學習 蒙特卡洛方法(Monte-Carlo Methods,簡稱MC)也叫做蒙特卡洛模擬,是指使用隨機數(或更常見的僞隨機數)來解決很多計算問題的方法。其實本質就是,通過儘可能隨機的行爲產生後驗,然後通過後驗來表徵目標系統。 在Model-Free的情況下,MC在強化學習中的應用就是獲取價值函數,
相關文章
相關標籤/搜索