強化學習&動態規劃3 | 策略迭代 Policy Iteration

時間 2021-01-12

原文原文鏈接

將迭代策略評估和策略優化結合起來，就得到了策略迭代算法算法的僞代碼如下，從對等概率隨機策略開始，對於每個狀態選擇動作的概率是一樣的。然後進行迭代策略評估獲得相應的值函數和策略完善獲得更好或者對等的的策略，直至收斂。當然在策略評估這一過程中，我們可以不用θ作爲我們的終止條件，而是設定迭代次數，這個算法稱爲截斷策略迭代因爲我們其實不用獲得極其接近結果的值函數才獲得最優策略，如果狀態動作對之間的相

>>阅读原文<<