強化學習(三) - 基於模型學習(DP)

時間 2021-01-08

標籤強化學習基於模型值迭代策略迭代简体版

原文原文鏈接

上一節主要是引入了MDP(Markov decision process)的各種相關的定義與概念。最後得到了最優狀態值函數 v ∗ ( s ) v_∗(s) v∗(s) 和最優狀態動作值函數 q ∗ ( s , a ) q_∗(s,a) q∗(s,a) 的定義與公式。若學習任務中的四個要素都已知，即S、A、P、R都已經給出，這樣的情形稱爲「有模型學習」。這一節主要是在已知模型的情況下

>>阅读原文<<