【深度強化學習 三】Actor-Critic及衍生算法簡介(李宏毅老師學習視頻筆記)

首先放視頻鏈接李宏毅老師深度強化學習課程 Actor-Critic算法簡介 這是一種policy based和value based方法的結合。首先複習一下加了discount和baseline的policy gradient算法: ∇ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log ⁡
相關文章
相關標籤/搜索