Policy Gradient 算法

時間 2020-12-24

標籤 REINFOECE Policy Gradient Reinforcement Learning 简体版

原文原文鏈接

常見的policy gradient算法，寫出來挺簡單的，但是有一個複雜的推導過程，這裏就略去了。 Vanilla Policy Gradient Algorithm G t i G_t^i Gti可以是TD estimate、bootsrap，也可以是簡單的從t開始的reward。圖示即爲實現monototic imporvement G t i = ∑ t ′ = t T r t i G_

>>阅读原文<<