通過減小Bootstrapping Error Reduction來進行離線RL學習

最近嘗試了一些offline數據的off-policy算法,發現value function的overestimation問題非常嚴重,在正常學習估計收斂在400左右的價值函數在離線數據下竟然會一直累積到幾十萬,高的離譜。正好近期offline RL領域就有一篇工作講這件事,所以值得仔細讀一讀。 論文全稱: Stabilizing Off-Policy Q-Learning via Bootstr
相關文章
相關標籤/搜索