協做多智能體強化學習中的回報函數設計

時間 2020-05-12

標籤智能強化學習回報函數設計简体版

原文原文鏈接

©PaperWeekly 原創 · 做者｜李文浩node 學校｜華東師範大學博士生算法研究方向｜強化學習c# 下面總結幾篇涉及到爲使得多智能體強化學習（MARL）算法可以更好地解決協做問題，而對智能體回報函數（reward function）進行設計的近年論文。這些論文主要可分爲如下兩個方向：1）解決多智能體社會困境（social dilemma）問題；2）解決多智能體探索（exploratio

>>阅读原文<<