增強學習(五)----- 時間差分學習(Q learning, Sarsa learning)

增強學習(五)----- 時間差分學習(Q learning, Sarsa learning) 接下來我們回顧一下動態規劃算法(DP)和蒙特卡羅方法(MC)的特點,對於動態規劃算法有如下特性: 需要環境模型,即狀態轉移概率 狀態值函數的估計是自舉的(bootstrapping),即當前狀態值函數的更新依賴於已知的其他狀態值函數。 相對的,蒙特卡羅方法的特點則有: 可以從經驗中學習不需要環境模型 狀
相關文章
相關標籤/搜索