QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning筆記

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 1. 論文講了什麼/主要貢獻是什麼 在多代理強化學習中,存在代理單獨計算價值函數和完全集中計算價值函數兩種方式,前者存在不穩定的問題,後者存在可擴展性差的問題(維度災難)。作者在介於兩者之前的VDN算法的基礎上,對從單代理
相關文章
相關標籤/搜索