斯坦福吳恩達《機器學習》--Fitted value iteration

時間 2021-01-16

標籤增強學習吳恩達斯坦福简体版

原文原文鏈接

Fitted value iteration是爲了近似連續狀態的MDP的價值函數。適用於n維連續狀態空間和離散動作空間的MDP。其核心思想是通過機器學習算法將價值函數近似爲狀態的線性或非線性函數。算法流程如下圖所示： 1.隨機的在狀態空間中選取m個採樣； 2.將參數設定爲0； 3.對於採樣中的每一個狀態，計算最佳動作y，通過監督學習將V(s)學習爲狀態s的函數，重複直至

>>阅读原文<<