強化學習算法僞代碼

基礎公式 來源 累計回報: 在t時刻狀態下選擇行爲所獲得累計回報,其中每個R都是個隨機變量。 狀態價值函數: 狀態s下的累計回報是多維隨機變量,服從pi分佈,因此使用期望累計回報表示該狀態的價值。 其貝爾曼方程爲: 狀態-行爲價值函數: 狀態行爲價值函數相比狀態價值函數其區別在於行爲已經選定。 其貝爾曼方程爲: 狀態價值與狀態-行爲價值聯繫: 狀態-行爲價值只是狀態價值確定一個行爲後的分支。 狀態
相關文章
相關標籤/搜索