MDP的動態規劃解法

時間 2019-12-05

標籤 mdp 動態規劃解法简体版

原文原文鏈接

閱讀數：25882 上一篇咱們已經說到了，加強學習的目的就是求解馬爾可夫決策過程(MDP)的最優策略，使其在任意初始狀態下，都能得到最大的Vπ值。(本文不考慮非馬爾可夫環境和不徹底可觀測馬爾可夫決策過程(POMDP)中的加強學習)。html 那麼如何求解最優策略呢？基本的解法有三種：算法動態規劃法(dynamic programming methods)數組蒙特卡羅方法(Monte Carlo

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。