Batch-Constrained deep Q- Learning(BCQ)

時間 2021-07-13

標籤 Reinforcement learning 简体版

原文原文鏈接

論文全稱：Off-Policy Deep Reinforcement Learning Without Exploration (Scott Fujimoto, David Meger, Doina Precup) 原文傳送門 https://arxiv.org/pdf/1812.02900arxiv.org 簡介本文其實不算是一篇Exploration的文章，但文章題目中的Without

>>阅读原文<<