強化學習 3 —— 使用蒙特卡洛（MC）解決無模型問題

時間 2020-12-30

原文原文鏈接

強化學習 3—— Model-free MC 一、問題引入回顧上篇強化學習 2 —— 用動態規劃求解 MDP我們使用策略迭代和價值迭代來求解MDP問題 1、策略迭代過程： 1、評估價值 (Evaluate) v i ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ⋅ v i − 1 ( s ′ )

>>阅读原文<<