lecture 5 : policy gradient introduction

 lecture 5 : policy gradient introduction 求   時運用了 如下一個技巧:                  於是, 由於 則  變爲: 在代碼實現的時候,用trajactory的平均來估計,即: 接下來又分析了 vanila policy gradient 方法  的 high varience : 直觀上的理解就是,某個概率分佈(如圖中的r(r), 受
相關文章
相關標籤/搜索