DMP(馬爾可夫決策過程)

時間 2021-01-25

原文原文鏈接

DMP 一累積回報智能體的目標是最大化長期受到的累積回報（cumulative reward）。如何定義累計回報呢？如果在時間t時刻之後，智能體接受到的回報序列表示成 . 那麼，我們尋求的是最大化期望回報（expected return），這裏用Gt表示特定的回報序列函數。回報的表示方法之一是將回報累加，即：考慮到實際場景，在計算累積回報時都會引入一個折扣因子（用γ表示)。智能體嘗試選擇一個

>>阅读原文<<

相關文章

相關標籤/搜索

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<