【強化學習】第二篇--基於模型的動態規劃法

做者:王小草 筆記時間:2019年1月21日web 1 價值函數的計算困難 1.1 最優值函數的遞歸定義 先來回憶一下最優狀態值函數和最優狀態-行爲值函數。算法 最優狀態價值函數:考慮這個狀態下,可能發生的全部後續動做,而且挑最好的動做來執行的狀況下,這個狀態的價值。 緩存 最優狀態-動做值函數:在這個狀態下執行了一個特定的動做,而且該動做的後續狀態總能選取最好的動做來執行,所獲得的長期價值 ko
相關文章
相關標籤/搜索