關於Policy Gradient的理解

轉自:https://www.jianshu.com/p/af668c5d783d 雖然前段時間稍微瞭解過Policy Gradient,但後來發現自己對其原理的理解還有諸多模糊之處,於是希望重新梳理一番。 Policy Gradient的基礎是強化學習理論,同時我也發現,由於強化學習的術語衆多,雜亂的符號容易讓我迷失方向,所以對我自己而言,很有必要重新確立一套統一的符號使用習慣。UCL的Davi
相關文章
相關標籤/搜索