MDP的動態規劃解法

閱讀數:25882 上一篇咱們已經說到了,加強學習的目的就是求解馬爾可夫決策過程(MDP)的最優策略,使其在任意初始狀態下,都能得到最大的Vπ值。(本文不考慮非馬爾可夫環境和不徹底可觀測馬爾可夫決策過程(POMDP)中的加強學習)。html 那麼如何求解最優策略呢?基本的解法有三種:算法 動態規劃法(dynamic programming methods)數組 蒙特卡羅方法(Monte Carlo
相關文章
相關標籤/搜索