IRGAN裏REINFORCE算法的推導過程的理解方式

時間 2021-02-28

原文原文鏈接

IRGAN裏的上面這個推導用了policy gradient based reinforcement learning (REINFORCE)算法，看了這個博客纔看懂每步推導過程 http://karpathy.github.io/2016/05/31/rl/ 上面是從karpathy的博客摘的另外θ可以理解爲神經網絡的參數

>>阅读原文<<