【強化學習】第二篇--基於模型的動態規劃法

時間 2021-01-13

標籤強化學習简体版

原文原文鏈接

作者：王小草筆記時間：2019年1月21日 1 價值函數的計算困難 1.1 最優值函數的遞歸定義先來回憶一下最優狀態值函數和最優狀態-行爲值函數。最優狀態價值函數：考慮這個狀態下，可能發生的所有後續動作，並且挑最好的動作來執行的情況下，這個狀態的價值。最優狀態-動作值函數：在這個狀態下執行了一個特定的動作，並且該動作的後續狀態總能選取最好的動作來執行，所得到的長期價值以上兩個價值函數，對

>>阅读原文<<