增強學習（五）----- 時間差分學習(Q learning, Sarsa learning)

時間 2021-01-15

原文原文鏈接

增強學習（五）----- 時間差分學習(Q learning, Sarsa learning) 接下來我們回顧一下動態規劃算法(DP)和蒙特卡羅方法(MC)的特點，對於動態規劃算法有如下特性：需要環境模型，即狀態轉移概率狀態值函數的估計是自舉的(bootstrapping)，即當前狀態值函數的更新依賴於已知的其他狀態值函數。相對的，蒙特卡羅方法的特點則有：可以從經驗中學習不需要環境模型狀

>>阅读原文<<