DQN解決cartpole原理

標籤(): 機器學習 文章目錄 @[toc] 爲什麼需要DQN DQN與Q學習? DQN算法更新 附錄(莫凡代碼) 當學習狀態空間很大,例如圍棋的學習中,由於狀態空間過大導致Q表遠遠超過內存,所以在複雜學習情況下Q表更新並不適用。 取而代之的是用神經網絡當做Q表使用,第一種神經網絡是輸入狀態和動作,輸出動作的評價值,第二種神經網絡是輸入狀態輸出所有動作和該動作的評價值,再從中選取評價高的動作進行決
相關文章
相關標籤/搜索