【強化學習】第二篇--基於模型的動態規劃法

時間 2019-12-05

標籤強化學習第二基於模型動態規劃简体版

原文原文鏈接

做者：王小草筆記時間：2019年1月21日web 1 價值函數的計算困難 1.1 最優值函數的遞歸定義先來回憶一下最優狀態值函數和最優狀態-行爲值函數。算法最優狀態價值函數：考慮這個狀態下，可能發生的全部後續動做，而且挑最好的動做來執行的狀況下，這個狀態的價值。緩存最優狀態-動做值函數：在這個狀態下執行了一個特定的動做，而且該動做的後續狀態總能選取最好的動做來執行，所獲得的長期價值 ko

>>阅读原文<<