Modeling Others using Oneself in Multi-Agent Reinforcement Learning

時間 2020-12-26

標籤對手建模機器學習简体版

原文原文鏈接

ICML-18的文章，前幾天我自己想的方法，就是對敵方和己方分別應用一個goal目標，只是我一直在考慮怎麼從state中抽離出兩個goal，而這篇文章思路的確很新奇，但是也有很明顯的侷限性。老習慣，先上環境：文章一共給了三個環境，第一個是coin，第二個是recipe，第三個是door 我先一個一個介紹環境設置，第一個環境是一個合作性質的環境 reward的設置：有兩個agent a1和a2

>>阅读原文<<