深度強化學習落地寶典(6)——回報函數篇

目錄 前言 非要手工設計嗎? 主線reward和稀疏回報問題 目標分解和輔助reward 總結 前言 回報函數(reward)設計在DRL應用中是極其重要的一環,通過將任務目標具體化和數值化,reward就如同一種特殊語言,實現了目標與算法之間的溝通,算法工作者在這裏面承擔了翻譯的角色,翻譯的好壞體現了其對任務邏輯的理解深度,決定了agent最終是否能學到期望的技能,並直接影響算法的收斂速度和最終
相關文章
相關標籤/搜索