多智能體強化學習之LeCTR

LeCTR(Learning to Coordinate and Teach Reinforcement) 一、簡介 LeCTR是一種在Dec-POMDP(Decenteralized Partilly Observable Markov Decision Process)的多個智能體中使用「Learning to teach」方法的RL算法。這些智能體在合適的時機扮演老師或學生的角色,來提供或請
相關文章
相關標籤/搜索