Learning Policy Representations in Multiagent Systems

ICML18關於對手策略建模的文章: 主要順一下思路: 其中Ei是agent i與其餘n個agent對弈,sample出來條軌跡(obs和action對),然後將其中第一條軌跡進行上面一個f(x)映射函數的學習,學得一個映射,這個映射就是對對手的策略建模embedding,然後以這個embedding爲基礎,在第二條軌跡上進行模仿學習,即基於embedding的基礎上在第二條軌跡上的obs和act
相關文章
相關標籤/搜索