強化學習之時序差分學習

時間 2021-01-13

標籤算法強化學習機器學習人工智能简体版

原文原文鏈接

（1）時序差分學習結合了動態規劃與蒙特卡洛方法的思想動態規劃是這樣迭代的，需要了解環境的dynamic才能求均值：蒙特卡洛是這樣增量式迭代的，只需要經驗片段就可以：而TD是這樣迭代的：（2）TD算法的V(S)的具體估計方法：直接用經驗片段來估計。最開始對每一個狀態的價值V進行初始化(可以是隨機初始化)。隨後在環境中交互，每一次和環境交互得到的四元組都可以用這個式子來更新之前對當前

>>阅读原文<<