Reinforcement Learning - An Introduction強化學習讀書筆記 Ch5.3-Ch5.7

5.3蒙特卡洛控制 採用蒙特卡洛解決控制問題,採用類似於DP算法中廣義策略迭代的方式。 在策略迭代中,同時維護近似的策略和近似的價值函數,通過不斷迭代逼近真實的價值函數,並且根據價值函數調優策略。 策略評估:採用與DP中完全相同的方法,只要每個狀態動作都被經歷了無數次,MC即可以收斂。 策略改進:採用貪心算法,每次選擇當前狀態下最大的動作價值函數。 可證明根據貪心法,總能每步都得到更優的策略,且最
相關文章
相關標籤/搜索