Modeling Others using Oneself in Multi-Agent Reinforcement Learning

ICML-18的文章,前幾天我自己想的方法,就是對敵方和己方分別應用一個goal目標,只是我一直在考慮怎麼從state中抽離出兩個goal,而這篇文章思路的確很新奇,但是也有很明顯的侷限性。 老習慣,先上環境: 文章一共給了三個環境,第一個是coin,第二個是recipe,第三個是door 我先一個一個介紹環境設置,第一個環境是一個合作性質的環境 reward的設置: 有兩個agent a1和a2
相關文章
相關標籤/搜索