AI學習筆記——強化學習之Model-Free Prediction--解決未知環境下的預測問題

前面關於強化學習的文章中介紹了MDP,動態規劃的方法對MDP問題的V函數進行評估和求最優策略。然而現實問題中,往往很多時候環境是未知的。那麼這篇文章就介紹一下在未知環境下用Model Free的方法預測MDP。 1. Monte-Carlo (蒙特卡洛)策略估計 Monte-Carlo(MC)方法廣泛應用於數學、物理和金融等領域。比如在物理學中研究離子運動軌跡,我們就可以採用Monte-Carlo
相關文章
相關標籤/搜索