策略梯度說明

如有錯誤,歡迎指正。 說明策略梯度   ∇θEx[f(x)]=∇θ ∑xp(x) f(x) =∑x ∇θp(x) f(x) =∑xp(x)【∇θp(x)/p(x)】f(x) =∑xp(x)  ∇θlogp(x)  f(x) =Ex[f(x) ∇θlogp(x)] 策略梯度的損失函數是 neg_log_prob =tf.reduce_sum(-tf.log(self.all_act_prob)*tf
相關文章
相關標籤/搜索