深度Q-learning簡介【RL系列】

今天,我們將構建一個深度Q網絡,爲環境中的agent實現一個可以獲取環境狀態信息以及近似Q-value的神經網絡。 多虧這個模型,我們纔可以使用agent打Doom遊戲。 在這篇文章中,你將學到: 什麼是深度Q學習(DQL)。 DQL中的最好策略是什麼? 如何解決Temporal limitation問題? 爲什麼我們使用經驗回放? DQL背後的數學理論是什麼? 如何通過tensorflow實現?
相關文章
相關標籤/搜索