強化學習&動態規劃2 | 策略完善 Policy Improvement

時間 2021-01-19

原文原文鏈接

接下來問題就是如何找到更好的策略了，找到更好的策略以後，然後帶入該策略，再次進行迭代策略評估，這個過程不斷循環得到最優策略。具體過程如下策略評估獲得了一個策略併產生值函數，然後我們使用該值函數和策略完善的方法，獲得一個潛在完善的新策略，然後帶入新策略再次進行策略評估，然後進行策略完善，不斷重複，直到收斂於最優策略。那麼我們知道值函數以後如何求得更好地策略呢？第一步，將狀態值函數轉化爲動作值函

>>阅读原文<<