強化學習7日打卡營學習總結和心得

七天打卡,六次作業,五次直播,完整的參與了百度推出的強化學習7日打卡營。 課程收穫 在科科老師的講解下,瞭解到了強化學習的應用, 瞭解到了基於價值的方法(saras,Q-learning)和基於策略的方法(REINFORCE算法),還有應用在連續動作空間的算法(DDPG)。其中DDPG算法和REINFORCE算法還需要多看看起數學原理。   強化學習個人感悟 強化學習就像是在不斷的與環境進行交互通
相關文章
相關標籤/搜索