強化學習(四) - 無模型學習(MC、TDL)

上一節講的是在已知模型的情況下,通過動態規劃來解決馬爾科夫決策過程(MDP)問題。具體的做法有兩個:一個是策略迭代,一個是值迭代。 從這一節開始,我們將要進入模型未知的情況下,如何去解決MDP問題。 模型未知,即狀態轉移概率 P a s s ′ P s s ′ a P s s ′ a Pass'Pss′a P^a_{ss′} Pass′Pss′aPss′a​Gt​) 區別: 蒙特卡羅每次
相關文章
相關標籤/搜索