強化學習：Policy-based方法 Part 1

時間 2021-01-16

原文原文鏈接

本次，我們將學習一種被稱爲策略梯度（Policy Gradients）的基於策略的（policy-based）強化學習技術。Part1部分，我們將着重討論基於值方法的侷限性，以及基於策略方法的優勢。在part2部分中，我們將具體介紹基於策略方法的實現過程，屆時我們將實現兩個agent，第一個將學習如何保持木棍的平衡；第二個將學習如何在Doom的敵對環境中，通過收集體力生存下去。在policy-

>>阅读原文<<