強化學習之無模型方法二:時間差分

時間差分方法(TD)是強化學習中最核心的也是最新奇的方法,混合了動態規劃(DP)和蒙特卡洛方法(MC) 和MC類似,TD從歷史經驗中學習 和MDP類似,使用後繼狀態的值函數更新當前狀態的值函數 TD屬於無模型方法,未知P和R,同時應用了採樣和貝爾曼方程,可以從不完整的片段中學習,通過估計來更新估計 時間差分評價 時間差分策略評價算法 目的:給定策略 π π ,求其對應的值函數 vπ v π 增量式
相關文章
相關標籤/搜索