強化學習算法僞代碼

時間 2021-01-01

標籤強化學習僞代碼简体版

原文原文鏈接

基礎公式來源累計回報：在t時刻狀態下選擇行爲所獲得累計回報，其中每個R都是個隨機變量。狀態價值函數：狀態s下的累計回報是多維隨機變量，服從pi分佈，因此使用期望累計回報表示該狀態的價值。其貝爾曼方程爲：狀態-行爲價值函數：狀態行爲價值函數相比狀態價值函數其區別在於行爲已經選定。其貝爾曼方程爲：狀態價值與狀態-行爲價值聯繫：狀態-行爲價值只是狀態價值確定一個行爲後的分支。狀態

>>阅读原文<<

相關文章

相關標籤/搜索

算法設計_僞代碼

強化學習篇

代碼格式化

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<