COMA: Counterfactual Multi-Agent Policy Gradients筆記

時間 2021-07-12

原文原文鏈接

1. 論文講了什麼/主要貢獻是什麼文章介紹了COMA算法，主要解決了在集中訓練、分散決策的框架中，全局全局獎勵的分配問題。文中受到difference rewards的啓發，採用了根據當前代理採取的動作相比於當前代理採取默認動作對全局獎勵的提高來判斷代理對全局獎勵的貢獻大小，從而對代理的actor進行有效的更新。並根據算法設計了能夠有效估計優勢函數的方式。 2. 論文摘要： Cooperativ