強化學習三、策略迭代與值迭代

時間 2020-12-29

標籤強化學習简体版

原文原文鏈接

本文參考http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 上一次已經分享了強化學習的概念以及基本的MDP，本節將分享基於Bellman方程和動態規劃的策略迭代和值迭代，對於Bellman方程，大家都比較清楚了，那麼我們先介紹一下動態規劃算法的基本原理一、動態規劃這裏面我要簡單介紹一下動態規劃，因爲嚴格來說，值迭代與策略迭代是用來

>>阅读原文<<