關於Policy Gradient的理解

時間 2020-12-24

原文原文鏈接

轉自：https://www.jianshu.com/p/af668c5d783d 雖然前段時間稍微瞭解過Policy Gradient，但後來發現自己對其原理的理解還有諸多模糊之處，於是希望重新梳理一番。 Policy Gradient的基礎是強化學習理論，同時我也發現，由於強化學習的術語衆多，雜亂的符號容易讓我迷失方向，所以對我自己而言，很有必要重新確立一套統一的符號使用習慣。UCL的Davi

>>阅读原文<<