斯坦福吳恩達《機器學習》--Fitted value iteration

  Fitted value iteration是爲了近似連續狀態的MDP的價值函數。適用於n維連續狀態空間和離散動作空間的MDP。其核心思想是通過機器學習算法將價值函數近似爲狀態的線性或非線性函數。      算法流程如下圖所示:   1.隨機的在狀態空間中選取m個採樣;   2.將參數設定爲0;   3.對於採樣中的每一個狀態,計算最佳動作y,通過監督學習將V(s)學習爲狀態s的函數,重複直至
相關文章
相關標籤/搜索