lecture 5 ： policy gradient introduction

時間 2020-12-24

標籤 CS294-112 課程筆記深度學習简体版

原文原文鏈接

lecture 5 ： policy gradient introduction 求時運用了如下一個技巧：於是，由於則變爲：在代碼實現的時候，用trajactory的平均來估計，即：接下來又分析了 vanila policy gradient 方法的 high varience ：直觀上的理解就是，某個概率分佈（如圖中的r(r), 受

>>阅读原文<<