David silver強化學習課程第四課模型無關的預測

時間 2020-12-23

標籤人工智能強化學習简体版

原文原文鏈接

第四課模型無關的預測在上一節課中，主要講了利用動態規劃的方法求解MDP的預測和控制兩個問題，本質上它是model-based的，需要知道模型的信息如狀態轉移矩陣和回報函數。但是通常遇到的強化學習問題是不知道環境全部信息的，但是具有MDP的形式，在缺乏狀態轉移矩陣和回報函數的情況下如何求解預測和控制問題？本章主要講了三種方法用來求解模型無關(model-free)的預測問題：蒙特卡洛方法(MC

>>阅读原文<<