多智能體強化學習之LeCTR

時間 2021-01-13

標籤算法人工智能強化學習简体版

原文原文鏈接

LeCTR（Learning to Coordinate and Teach Reinforcement）一、簡介 LeCTR是一種在Dec-POMDP（Decenteralized Partilly Observable Markov Decision Process）的多個智能體中使用「Learning to teach」方法的RL算法。這些智能體在合適的時機扮演老師或學生的角色，來提供或請

>>阅读原文<<