強化學習《獎勵函數設計: Reward Shaping》詳細解讀

時間 2021-01-14

原文原文鏈接

深度強化學習實驗室作者: 網易伏羲實驗室編輯：DeepRL 一、整體介紹在強化學習中，智能體的目標被形式化表徵爲一種特殊信號，稱爲收益，它通過環境傳遞給智能體。在每個時刻，收益都是一個單一標量數值。非正式地說，智能體的目標是最大化其收到的總收益。這意味着需要最大化的不是當前收益，而是長期的累積收益。我們可以將這種非正式想法清楚地表述爲收益假設：我們所有的「目標」或「目的」都可以歸結爲:最大

>>阅读原文<<