論文筆記--Guided Meta-Policy Search

論文筆記-- Guided Meta-policy Search--nips19 核心思想 Guided Meta-Policy Search 元學習階段(二階段) 專家策略學習階段(一階段) 一點思考 核心思想 傳統的元強化學習方法在meta-training過程中需要大量的數據,因爲很多是on-policy的。在許多問題中很難滿足。本文的思想是在元學習階段(learn a RL procedu
相關文章
相關標籤/搜索