飛槳paddlepaddle強化學習打卡營

時間 2020-07-14

標籤 paddlepaddle 強化學習打卡简体版

原文原文鏈接

整體評價：課程的定位很精確，由於時間受限，不可能從理論推導開始教學。面向應用的方式，會積累必定學習的興趣，也便於後續的學習。課程知識的分佈也比較合理，分別是：面對離散動做的Q-learning和Sarsa；由於不可數的動做和狀態組合與神經網絡結合（擬合的方式），面向連續動做的DQN，採起隨機策略的policy-gradient以及採起肯定性策略的DDPG。這些只能算是RL最入門基礎的算法（只包括應

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。