Latent Space Policies for Hierarchical Reinforcement Learning

基於潛變量的層級強化學習,主要依賴的工作有:SAC和real NVP 摘要 本文的目標是設計一個層級強化學習算法,按照自底向上的方式逐層構建分層表示。不同與以往HRL強制底層agent使用高層信號,從而限制或削弱其能力,進而強制層次生成,本文提出的框架中的每一層都致力於直接完成任務。 框架內的每一層都被添加了潛變量,可從先驗分佈中採樣得到。最大熵強化學習將這些潛變量和每一層的策略結合起來,並且高層
相關文章
相關標籤/搜索