強化學習(三)：動態規劃求解MDP(Planning by Dynamic Programming)

時間 2021-01-08

標籤強化學習Reinforcement Learning 價值迭代value iteration 策略迭代policy iteration 策略評估policy evaluation 简体版

原文原文鏈接

上一節主要是引入了MDP(Markov decision process)的各種相關的定義與概念。最後得到了最優狀態值函數 v∗(s) 和最優狀態動作值函數 q∗(s,a) 的定義與公式。這一節主要是在已知模型的情況下利用動態規劃來進行強化學習求解 v∗(s) 和 q∗(s,a) 。什麼叫已知模型的情況？就是說上一節講到的 <S,A,P,R,γ> ，這些都是已知的。求解的方法主要有兩個，一個是策略

>>阅读原文<<