強化學習(Reinforcement Learning)知識整理

傳送門:https://zhuanlan.zhihu.com/p/25319023算法 由於準備投入學習 CS294,具體見 知乎專欄,複習了下以前學習 Udacity 和 CS181 中有關強化學習部分的筆記和資料,再看了遍 David Silver 課程的 PPT,整理成了這篇文章。ide 馬爾可夫決策過程(Markov Decision Processes,MDPs) MDPs 簡單說就是一
相關文章
相關標籤/搜索