強化學習《獎勵函數設計: Reward Shaping》詳細解讀

深度強化學習實驗室 作者: 網易伏羲實驗室 編輯:DeepRL 一、整體介紹 在強化學習中,智能體的目標被形式化表徵爲一種特殊信號,稱爲收益,它通過環境傳遞給智能體。在每個時刻,收益都是一個單一標量數值。非正式地說,智能體的目標是最大化其收到的總收益。這意味着需要最大化的不是當前收益,而是長期的累積收益。我們可以將這種非正式想法清楚地表述爲收益假設: 我們所有的「目標」或「目的」都可以歸結爲:最大
相關文章
相關標籤/搜索