【深度強化學習】4. Policy Gradient

【Datawhale打卡】十一的時候自己看過一遍,李宏毅老師講的很好,對數學小白也很友好,但是由於沒有做筆記(敲代碼),看完以後腦袋裏空落落的。趁着這次打卡活動,重新看一遍,果然好多細節需要重頭梳理一遍。 文章目錄 1. 新概念/符號 2. 三個組成部分 3. Gradient Ascent 4. 實現/實做 4.1 TIP1 Add a Baseline 4.2 TIP2 Assign Suit
相關文章
相關標籤/搜索