DMP(馬爾可夫決策過程)

DMP 一 累積回報 智能體的目標是最大化長期受到的累積回報(cumulative reward)。如何定義累計回報呢?如果在時間t時刻之後,智能體接受到的回報序列表示成 . 那麼,我們尋求的是最大化期望回報(expected return),這裏用Gt表示特定的回報序列函數。回報的表示方法之一是將回報累加,即: 考慮到實際場景,在計算累積回報時都會引入一個折扣因子(用γ表示)。智能體嘗試選擇一個
相關文章
相關標籤/搜索