Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 讀書筆記

1. 介紹        本文主要是將深度強化學習應用於多智能的控制。作者提出了一種演員評論方法的改進方法,該方法考慮了其他代理人的行動策略。此外,他們引入了一種培訓方案,該方案綜合考慮每個代理策略,以產生更強大的多代理策略,並能夠成功地學習需要複雜的多智能體協調的政策 2. 核心 這篇文章我閱讀了源碼,它的網絡架構如圖1所示   圖1  MADDPG         從圖中可以看出主要包含了Q和
相關文章
相關標籤/搜索