飛槳paddlepaddle強化學習打卡營

整體評價:課程的定位很精確,由於時間受限,不可能從理論推導開始教學。面向應用的方式,會積累必定學習的興趣,也便於後續的學習。課程知識的分佈也比較合理,分別是:面對離散動做的Q-learning和Sarsa;由於不可數的動做和狀態組合與神經網絡結合(擬合的方式),面向連續動做的DQN,採起隨機策略的policy-gradient以及採起肯定性策略的DDPG。這些只能算是RL最入門基礎的算法(只包括應
相關文章
相關標籤/搜索