AI學習筆記——強化學習之Model-Free Prediction--解決未知環境下的預測問題

時間 2021-01-14

原文原文鏈接

前面關於強化學習的文章中介紹了MDP，動態規劃的方法對MDP問題的V函數進行評估和求最優策略。然而現實問題中，往往很多時候環境是未知的。那麼這篇文章就介紹一下在未知環境下用Model Free的方法預測MDP。 1. Monte-Carlo （蒙特卡洛）策略估計 Monte-Carlo(MC)方法廣泛應用於數學、物理和金融等領域。比如在物理學中研究離子運動軌跡，我們就可以採用Monte-Carlo

>>阅读原文<<