協做多智能體強化學習中的回報函數設計

©PaperWeekly 原創 · 做者|李文浩node 學校|華東師範大學博士生算法 研究方向|強化學習c# 下面總結幾篇涉及到爲使得多智能體強化學習(MARL)算法可以更好地解決協做問題,而對智能體回報函數(reward function)進行設計的近年論文。這些論文主要可分爲如下兩個方向:1)解決多智能體社會困境(social dilemma)問題;2)解決多智能體探索(exploratio
相關文章
相關標籤/搜索