強化學習(三):動態規劃求解MDP(Planning by Dynamic Programming)

上一節主要是引入了MDP(Markov decision process)的各種相關的定義與概念。最後得到了最優狀態值函數 v∗(s) 和最優狀態動作值函數 q∗(s,a) 的定義與公式。這一節主要是在已知模型的情況下利用動態規劃來進行強化學習求解 v∗(s) 和 q∗(s,a) 。什麼叫已知模型的情況?就是說上一節講到的 <S,A,P,R,γ> ,這些都是已知的。求解的方法主要有兩個,一個是策略
相關文章
相關標籤/搜索