Fast deep reinforcement learning using online adjustments from the past

Fast deep reinforcement learning using online adjustments from the past 文章出自 DeepMind,其提出了一種能夠更加充分利用 Replay buffer 歷史經驗數據的RL改進算法 ---- Ephemeral Value Adjusments (EVA)。 Contribution: 提出了一種新的算法 — Epheme
相關文章
相關標籤/搜索