協作多智能體強化學習中的回報函數設計

時間 2021-01-12

原文原文鏈接

©PaperWeekly 原創 · 作者｜李文浩學校｜華東師範大學博士生研究方向｜強化學習下面總結幾篇涉及到爲使得多智能體強化學習（MARL）算法能夠更好地解決協作問題，而對智能體回報函數（reward function）進行設計的近年論文。這些論文主要可分爲以下兩個方向：1）解決多智能體社會困境（social dilemma）問題；2）解決多智能體探索（exploration）問題。多智

>>阅读原文<<