DRL（三）——Policy Gradient

時間 2020-12-24

標籤 DRL 简体版

原文原文鏈接

這個策略梯度相關的知識我在 David Silver 的強化學習課程裏學習過了已經，再看一遍這個伯克利的，好像還挺重要，marshal學長說的。推導過程這個過程也大致看過首先是使用了一個log函數的性質，見上圖，然後就可以轉化的簡單一點然後就可以進行下面這樣然後，如果跟maximum likelihood 相比較，就會發現這個策略梯度的變化的值，相比起來每一項都多乘了獲得的reward，

>>阅读原文<<