強化學習(三) - 基於模型學習(DP)

上一節主要是引入了MDP(Markov decision process)的各種相關的定義與概念。最後得到了 最優狀態值函數 v ∗ ( s ) v_∗(s) v∗​(s) 和 最優狀態動作值函數 q ∗ ( s , a ) q_∗(s,a) q∗​(s,a) 的定義與公式。 若學習任務中的四個要素都已知,即S、A、P、R都已經給出,這樣的情形稱爲 「有模型學習」。 這一節主要是在已知模型的情況下
相關文章
相關標籤/搜索