增強學習（三）----- MDP的動態規劃解法

時間 2021-07-12

原文原文鏈接

上一篇我們已經說到了，增強學習的目的就是求解馬爾可夫決策過程(MDP)的最優策略，使其在任意初始狀態下，都能獲得最大的Vπ值。(本文不考慮非馬爾可夫環境和不完全可觀測馬爾可夫決策過程(POMDP)中的增強學習)。那麼如何求解最優策略呢？基本的解法有三種：動態規劃法(dynamic programming methods) 蒙特卡羅方法(Monte Carlo methods) 時間差分法(te

>>阅读原文<<