強化學習(四) - 無模型學習(MC、TDL)

時間 2021-01-13

原文原文鏈接

上一節講的是在已知模型的情況下，通過動態規劃來解決馬爾科夫決策過程(MDP)問題。具體的做法有兩個：一個是策略迭代，一個是值迭代。從這一節開始，我們將要進入模型未知的情況下，如何去解決MDP問題。模型未知，即狀態轉移概率 P a s s ′ P s s ′ a P s s ′ a Pass'Pss′a P^a_{ss′} Pass′Pss′aPss′aGt）區別：蒙特卡羅每次

>>阅读原文<<