DRL(六)——高級策略梯度

這一講主要在講policy gradient, 注意,教授經常提到的horizon,就是 1 1 − γ 1\over1-\gamma 1−γ1​ , 就是 ∑ t γ t    ( t   s t a r t s   f r o m   0 ) \sum_t\gamma^t~~(t~starts~from~0) ∑t​γt  (t starts from 0),這個求和的結果是 1 1 − γ
相關文章
相關標籤/搜索