強化學習之無模型方法二：時間差分

時間 2021-01-13

原文原文鏈接

時間差分方法(TD)是強化學習中最核心的也是最新奇的方法，混合了動態規劃(DP)和蒙特卡洛方法(MC) 和MC類似，TD從歷史經驗中學習和MDP類似，使用後繼狀態的值函數更新當前狀態的值函數 TD屬於無模型方法，未知P和R，同時應用了採樣和貝爾曼方程，可以從不完整的片段中學習，通過估計來更新估計時間差分評價時間差分策略評價算法目的：給定策略 π π ，求其對應的值函數 vπ v π 增量式

>>阅读原文<<