【深度強化學習】4. Policy Gradient

時間 2021-03-21

原文原文鏈接

【Datawhale打卡】十一的時候自己看過一遍，李宏毅老師講的很好，對數學小白也很友好，但是由於沒有做筆記（敲代碼），看完以後腦袋裏空落落的。趁着這次打卡活動，重新看一遍，果然好多細節需要重頭梳理一遍。文章目錄 1. 新概念/符號 2. 三個組成部分 3. Gradient Ascent 4. 實現/實做 4.1 TIP1 Add a Baseline 4.2 TIP2 Assign Suit

>>阅读原文<<