增強學習(三)----- MDP的動態規劃解法

上一篇我們已經說到了,增強學習的目的就是求解馬爾可夫決策過程(MDP)的最優策略,使其在任意初始狀態下,都能獲得最大的Vπ值。(本文不考慮非馬爾可夫環境和不完全可觀測馬爾可夫決策過程(POMDP)中的增強學習)。 那麼如何求解最優策略呢?基本的解法有三種: 動態規劃法(dynamic programming methods) 蒙特卡羅方法(Monte Carlo methods) 時間差分法(te
相關文章
相關標籤/搜索