IRGAN裏REINFORCE算法 的推導過程 的理解方式

IRGAN裏的上面這個推導用了policy gradient based reinforcement learning (REINFORCE)算法,看了這個博客纔看懂每步推導過程 http://karpathy.github.io/2016/05/31/rl/ 上面是從karpathy的博客摘的 另外θ可以理解爲神經網絡的參數
相關文章
相關標籤/搜索