強化學習--動態規劃

動態規劃是強化學習裏面最基礎的部分,其核心思想----通用策略迭代(Generalized Policy Iteration,GPI)。 首先強調一點,動態規劃(Dynamic Programming)要求一個完全已知的環境模型,所謂完全已知,就是MDP的五元組全部已知,當然了,主要還是指狀態轉移概率已知。這種學習方式就是有模型學習(Model-based learning)。 這裏我的疑問還是兩
相關文章
相關標籤/搜索