強化學習(四):蒙特卡羅學習(MonteCarlo)與時序差分學習(TD learning)

上一節講的是在已知模型的狀況下,如何去解決一個馬爾科夫決策過程(MDP)問題。方法就是經過動態規劃來評估一個給定的策略,經過不斷迭代最終獲得最優價值函數。具體的作法有兩個:一個是策略迭代,一個是值迭代。從這一節開始,咱們將要進入模型未知的狀況下,如何去解決一個MDP問題的方法。所謂的模型未知,即狀態轉移機率 Pass′ P s s ′ a 這些咱們是不知道的。因此咱們沒法直接利用Bellman方程
相關文章
相關標籤/搜索