DQN入門系列地址:https://www.cnblogs.com/xiaohuiduan/category/1770037.htmlhtml
原本呢,在上一個系列數據挖掘入門系列博客中,我是準備寫數據挖掘的教程,而後不知怎麼滴,博客越寫越偏,寫到了神經網絡,深度學習去了。在我寫完數據挖掘博客以後,我又不知道在哪裏(YouTube or B站殺我)看到了有人使用CNN網絡玩飛翔的小鳥(Flappy Bird)的遊戲,當時我以爲,emm,居然使用CNN就能夠玩遊戲,有意思,能夠一試,而後發現,要用到DQN,再而後,又發現其是強化學習的知識,而後,就入坑了。算法
別人的學習流程是強化學習——>Q-learning——>DQN——>🐦Fly,我學習流程TM是 🐦Fly——>CNN——>DQN——>Q-learning——>強化學習網絡
固然,本教程仍是會按照"強化學習——>Q-learning——>DQN——>🐦Fly"的流程來,否則反着來誰受得了。app
至於爲何教程名叫作DQN入門教程而不是強化學習入門博客,是由於該系列側重點不是強化學習,而是DQN。所以,一切的目標都是朝着DQN向前。學習
該系列博客仍然定位爲入門博客,所以不會涉及詳細對強化學習的各個方面都進行介紹,可是不會影響從入門到入土的連貫性。至於爲何定位爲入門博客:1. 博主本身也是剛學,而且也不是系統性的學習(由於要準備考研,沒有時間),因此本身的知識面也不夠。 2. 實際上只要咱們可以入門,知道什麼是強化學習,什麼是DQN,可以本身寫一個DQN的模型,而後獲得結果就🆗了。至於更深刻的內容,都入門了,還不可以本身修煉嗎?一樣,這也是個人學習方法:先知道可以作什麼,而後作出來(並非簡單的copy代碼,仍是須要知道爲何這樣作),而後再深刻的來了解怎麼作,怎麼作的更好。ui
該教程涉及的內容以下:htm
最終會完成2個有意思的小項目:blog
MountainCar-v0教程
經過DQN訓練以後,小車可以自動移動到旗幟的地方。遊戲
Flappy Bird
經過DQN訓練以後,小鳥可以自動玩遊戲。
若是有任何問題,歡迎mail我。