【強化學習】第二篇--基於模型的動態規劃法

作者:王小草 筆記時間:2019年1月21日 1 價值函數的計算困難 1.1 最優值函數的遞歸定義 先來回憶一下最優狀態值函數和最優狀態-行爲值函數。 最優狀態價值函數:考慮這個狀態下,可能發生的所有後續動作,並且挑最好的動作來執行的情況下,這個狀態的價值。 最優狀態-動作值函數:在這個狀態下執行了一個特定的動作,並且該動作的後續狀態總能選取最好的動作來執行,所得到的長期價值 以上兩個價值函數,對
相關文章
相關標籤/搜索