協作多智能體強化學習中的回報函數設計

©PaperWeekly 原創 · 作者|李文浩 學校|華東師範大學博士生 研究方向|強化學習 下面總結幾篇涉及到爲使得多智能體強化學習(MARL)算法能夠更好地解決協作問題,而對智能體回報函數(reward function)進行設計的近年論文。這些論文主要可分爲以下兩個方向:1)解決多智能體社會困境(social dilemma)問題;2)解決多智能體探索(exploration)問題。 多智
相關文章
相關標籤/搜索