強化學習:Policy-based方法 Part 1

本次,我們將學習一種被稱爲策略梯度(Policy Gradients)的基於策略的(policy-based)強化學習技術。Part1部分,我們將着重討論基於值方法的侷限性,以及基於策略方法的優勢。在part2部分中,我們將具體介紹基於策略方法的實現過程,屆時我們將實現兩個agent,第一個將學習如何保持木棍的平衡; 第二個將學習如何在Doom的敵對環境中,通過收集體力生存下去。 在policy-
相關文章
相關標籤/搜索