強化學習基礎 | (4) 用蒙特卡羅法（MC）求解

時間 2021-01-04

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

原文地址作者：劉建平在用動態規劃（DP)求解中，我們討論了用動態規劃來求解強化學習預測問題和控制問題的方法。但是由於動態規劃法需要在每一次回溯更新某一個狀態的價值時，回溯到該狀態的所有可能的後續狀態。導致對於複雜問題計算量很大。同時很多時候，我們連環境的狀態轉化模型P都無法知道，這時動態規劃法根本沒法使用。這時候我們如何求解強化學習問題呢？本文要討論的蒙特卡羅(Monte-Calo, MC)就

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。