DRL(三)——Policy Gradient

這個策略梯度相關的知識我在 David Silver 的強化學習課程裏學習過了已經,再看一遍這個伯克利的,好像還挺重要,marshal學長說的。 推導過程 這個過程也大致看過 首先是使用了一個log函數的性質,見上圖,然後就可以轉化的簡單一點 然後就可以進行下面這樣 然後,如果跟maximum likelihood 相比較,就會發現這個策略梯度的變化的值,相比起來每一項都多乘了獲得的reward,
相關文章
相關標籤/搜索