強化學習基礎第三講蒙特卡羅方法

時間 2021-01-04

原文原文鏈接

強化學習基礎第三講蒙特卡羅方法上一節課我們講了已知模型時，利用動態規劃的方法求解馬爾科夫決策問題。從這節課開始，我們講無模型的強化學習算法。圖3.1 強化學習方法分類解決無模型的馬爾科夫決策問題是強化學習算法的精髓。如圖3.1所示，無模型的強化學習算法主要包括蒙特卡羅方法和時間差分方法。這一節我們先講蒙特卡羅的方法。在講解蒙特卡羅方法之前，先梳理一下整個強化學習研究思路。首先強化學習問

>>阅读原文<<