強化學習--動態規劃

時間 2021-07-12

原文原文鏈接

動態規劃是強化學習裏面最基礎的部分，其核心思想----通用策略迭代(Generalized Policy Iteration,GPI)。首先強調一點，動態規劃(Dynamic Programming)要求一個完全已知的環境模型，所謂完全已知，就是MDP的五元組全部已知，當然了，主要還是指狀態轉移概率已知。這種學習方式就是有模型學習(Model-based learning)。這裏我的疑問還是兩

>>阅读原文<<