強化學習&動態規劃2 | 策略完善 Policy Improvement

接下來問題就是如何找到更好的策略了,找到更好的策略以後,然後帶入該策略,再次進行迭代策略評估,這個過程不斷循環得到最優策略。具體過程如下 策略評估獲得了一個策略併產生值函數,然後我們使用該值函數和策略完善的方法,獲得一個潛在完善的新策略,然後帶入新策略再次進行策略評估,然後進行策略完善,不斷重複,直到收斂於最優策略。 那麼我們知道值函數以後如何求得更好地策略呢? 第一步,將狀態值函數轉化爲動作值函
相關文章
相關標籤/搜索