Policy Gradient 算法

常見的policy gradient算法,寫出來挺簡單的,但是有一個複雜的推導過程,這裏就略去了。 Vanilla Policy Gradient Algorithm G t i G_t^i Gti​可以是TD estimate、bootsrap,也可以是簡單的從t開始的reward。 圖示即爲實現monototic imporvement G t i = ∑ t ′ = t T r t i G_
相關文章
相關標籤/搜索