強化學習 3 —— 使用 蒙特卡洛(MC)解決無模型問題

強化學習 3—— Model-free MC 一、問題引入 回顧上篇強化學習 2 —— 用動態規劃求解 MDP我們使用策略迭代和價值迭代來求解MDP問題 1、策略迭代過程: 1、評估價值 (Evaluate) v i ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ⋅ v i − 1 ( s ′ )
相關文章
相關標籤/搜索