深度Q-learning簡介【RL系列】

時間 2021-01-16

原文原文鏈接

今天，我們將構建一個深度Q網絡，爲環境中的agent實現一個可以獲取環境狀態信息以及近似Q-value的神經網絡。多虧這個模型，我們纔可以使用agent打Doom遊戲。在這篇文章中，你將學到：什麼是深度Q學習（DQL）。 DQL中的最好策略是什麼？如何解決Temporal limitation問題？爲什麼我們使用經驗回放？ DQL背後的數學理論是什麼？如何通過tensorflow實現？

>>阅读原文<<