DRL（六）——高級策略梯度

時間 2021-01-21

標籤 DRL 简体版

原文原文鏈接

這一講主要在講policy gradient，注意，教授經常提到的horizon，就是 1 1 − γ 1\over1-\gamma 1−γ1 ，就是 ∑ t γ t ( t s t a r t s f r o m 0 ) \sum_t\gamma^t~~(t~starts~from~0) ∑tγt (t starts from 0)，這個求和的結果是 1 1 − γ

>>阅读原文<<