強化學習基礎 第三講 蒙特卡羅方法

強化學習基礎 第三講 蒙特卡羅方法 上一節課我們講了已知模型時,利用動態規劃的方法求解馬爾科夫決策問題。從這節課開始,我們講無模型的強化學習算法。 圖3.1 強化學習方法分類 解決無模型的馬爾科夫決策問題是強化學習算法的精髓。如圖3.1所示,無模型的強化學習算法主要包括蒙特卡羅方法和時間差分方法。這一節我們先講蒙特卡羅的方法。 在講解蒙特卡羅方法之前,先梳理一下整個強化學習研究思路。首先強化學習問
相關文章
相關標籤/搜索