Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 讀書筆記

時間 2021-01-13

原文原文鏈接

1. 介紹本文主要是將深度強化學習應用於多智能的控制。作者提出了一種演員評論方法的改進方法，該方法考慮了其他代理人的行動策略。此外，他們引入了一種培訓方案，該方案綜合考慮每個代理策略，以產生更強大的多代理策略，並能夠成功地學習需要複雜的多智能體協調的政策 2. 核心這篇文章我閱讀了源碼，它的網絡架構如圖1所示圖1 MADDPG 從圖中可以看出主要包含了Q和