通過減小Bootstrapping Error Reduction來進行離線RL學習

時間 2021-01-04

標籤 Reinforcement learning 简体版

原文原文鏈接

最近嘗試了一些offline數據的off-policy算法，發現value function的overestimation問題非常嚴重，在正常學習估計收斂在400左右的價值函數在離線數據下竟然會一直累積到幾十萬，高的離譜。正好近期offline RL領域就有一篇工作講這件事，所以值得仔細讀一讀。論文全稱： Stabilizing Off-Policy Q-Learning via Bootstr

>>阅读原文<<