Learning Policy Representations in Multiagent Systems

時間 2020-12-20

標籤對手建模简体版

原文原文鏈接

ICML18關於對手策略建模的文章：主要順一下思路：其中Ei是agent i與其餘n個agent對弈，sample出來條軌跡（obs和action對），然後將其中第一條軌跡進行上面一個f（x）映射函數的學習，學得一個映射，這個映射就是對對手的策略建模embedding，然後以這個embedding爲基礎，在第二條軌跡上進行模仿學習，即基於embedding的基礎上在第二條軌跡上的obs和act

>>阅读原文<<