生成對抗樹搜索的樣本高效的深度強化學習

摘要  我們提出了一種樣本高效的深度強化學習(DRL)算法——生成對抗樹搜索(GATS)。在強化學習(RL)的搜索和規劃中,儘管蒙特卡洛(MCTS)被認爲是有效的,但其通常是樣本低效的,從而應用到實踐中成本高昂。在這項工作中,我們開發了一個用於對環境動力學建模的生成對抗網絡(GAN)架構和獎勵函數預測器模型。我們利用從與環境交互收集到的數據來學習這些模型,我們把這些模型用作基於模型的規劃。在規劃期
相關文章
相關標籤/搜索