【深度強化學習三】Actor-Critic及衍生算法簡介（李宏毅老師學習視頻筆記）

時間 2021-01-13

標籤深度強化學習简体版

原文原文鏈接

首先放視頻鏈接李宏毅老師深度強化學習課程 Actor-Critic算法簡介這是一種policy based和value based方法的結合。首先複習一下加了discount和baseline的policy gradient算法： ∇ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log ⁡

>>阅读原文<<