Latent Space Policies for Hierarchical Reinforcement Learning

時間 2021-01-02

原文原文鏈接

基於潛變量的層級強化學習，主要依賴的工作有：SAC和real NVP 摘要本文的目標是設計一個層級強化學習算法，按照自底向上的方式逐層構建分層表示。不同與以往HRL強制底層agent使用高層信號，從而限制或削弱其能力，進而強制層次生成，本文提出的框架中的每一層都致力於直接完成任務。框架內的每一層都被添加了潛變量，可從先驗分佈中採樣得到。最大熵強化學習將這些潛變量和每一層的策略結合起來，並且高層