Batch-Constrained deep Q- Learning(BCQ)

論文全稱:Off-Policy Deep Reinforcement Learning Without Exploration (Scott Fujimoto, David Meger, Doina Precup) 原文傳送門 https://arxiv.org/pdf/1812.02900​arxiv.org   簡介 本文其實不算是一篇Exploration的文章,但文章題目中的Without
相關文章
相關標籤/搜索