強化學習三、策略迭代與值迭代

本文參考http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 上一次已經分享了強化學習的概念以及基本的MDP,本節將分享基於Bellman方程和動態規劃的策略迭代和值迭代,對於Bellman方程,大家都比較清楚了,那麼我們先介紹一下動態規劃算法的基本原理 一、動態規劃 這裏面我要簡單介紹一下動態規劃,因爲嚴格來說,值迭代與策略迭代是用來
相關文章
相關標籤/搜索