強化學習 之 時序差分學習

(1)時序差分學習結合了動態規劃與蒙特卡洛方法的思想 動態規劃是這樣迭代的,需要了解環境的dynamic才能求均值: 蒙特卡洛是這樣增量式迭代的,只需要經驗片段就可以: 而TD是這樣迭代的: (2)TD算法的V(S)的具體估計方法 : 直接用經驗片段來估計。 最開始對每一個狀態的價值V進行初始化(可以是隨機初始化)。隨後在環境中交互,每一次和環境交互得到的四元組 都可以用這個式子 來更新之前對當前
相關文章
相關標籤/搜索