強化學習基礎 | (4) 用蒙特卡羅法(MC)求解

原文地址 作者:劉建平 在用動態規劃(DP)求解中,我們討論了用動態規劃來求解強化學習預測問題和控制問題的方法。但是由於動態規劃法需要在每一次回溯更新某一個狀態的價值時,回溯到該狀態的所有可能的後續狀態。導致對於複雜問題計算量很大。同時很多時候,我們連環境的狀態轉化模型P都無法知道,這時動態規劃法根本沒法使用。這時候我們如何求解強化學習問題呢?本文要討論的蒙特卡羅(Monte-Calo, MC)就
相關文章
相關標籤/搜索