Fast deep reinforcement learning using online adjustments from the past

時間 2020-12-30

標籤 DRL文章閱讀筆記強化學習简体版

原文原文鏈接

Fast deep reinforcement learning using online adjustments from the past 文章出自 DeepMind，其提出了一種能夠更加充分利用 Replay buffer 歷史經驗數據的RL改進算法 ---- Ephemeral Value Adjusments (EVA)。 Contribution: 提出了一種新的算法 — Epheme

>>阅读原文<<