生成對抗樹搜索的樣本高效的深度強化學習

時間 2021-01-07

標籤 Generative Adversarial Network Reinforcement Learning GenerativeAdversarial Tree Sea 欄目系統網絡简体版

原文原文鏈接

摘要我們提出了一種樣本高效的深度強化學習（DRL）算法——生成對抗樹搜索（GATS）。在強化學習（RL）的搜索和規劃中，儘管蒙特卡洛（MCTS）被認爲是有效的，但其通常是樣本低效的，從而應用到實踐中成本高昂。在這項工作中，我們開發了一個用於對環境動力學建模的生成對抗網絡（GAN）架構和獎勵函數預測器模型。我們利用從與環境交互收集到的數據來學習這些模型，我們把這些模型用作基於模型的規劃。在規劃期

>>阅读原文<<