深度強化學習落地寶典（6）——回報函數篇

時間 2020-12-29

原文原文鏈接

目錄前言非要手工設計嗎？主線reward和稀疏回報問題目標分解和輔助reward 總結前言回報函數（reward）設計在DRL應用中是極其重要的一環，通過將任務目標具體化和數值化，reward就如同一種特殊語言，實現了目標與算法之間的溝通，算法工作者在這裏面承擔了翻譯的角色，翻譯的好壞體現了其對任務邏輯的理解深度，決定了agent最終是否能學到期望的技能，並直接影響算法的收斂速度和最終

>>阅读原文<<