David silver強化學習課程第四課 模型無關的預測

第四課 模型無關的預測 在上一節課中,主要講了利用動態規劃的方法求解MDP的預測和控制兩個問題,本質上它是model-based的,需要知道模型的信息如狀態轉移矩陣和回報函數。但是通常遇到的強化學習問題是不知道環境全部信息的,但是具有MDP的形式,在缺乏狀態轉移矩陣和回報函數的情況下如何求解預測和控制問題? 本章主要講了三種方法用來求解模型無關(model-free)的預測問題:蒙特卡洛方法(MC
相關文章
相關標籤/搜索