Reinforcement Learning - An Introduction強化學習讀書筆記 Ch5.3-Ch5.7

時間 2021-01-13

原文原文鏈接

5.3蒙特卡洛控制採用蒙特卡洛解決控制問題，採用類似於DP算法中廣義策略迭代的方式。在策略迭代中，同時維護近似的策略和近似的價值函數，通過不斷迭代逼近真實的價值函數，並且根據價值函數調優策略。策略評估：採用與DP中完全相同的方法，只要每個狀態動作都被經歷了無數次，MC即可以收斂。策略改進：採用貪心算法，每次選擇當前狀態下最大的動作價值函數。可證明根據貪心法，總能每步都得到更優的策略，且最

>>阅读原文<<