DQN

文章目錄 神經網絡的作用 更新神經網絡 Experience replay 和 Fixed Q-targets 神經網絡的作用 將狀態和動作當成神經網絡的輸入, 然後經過神經網絡分析後得到動作的 Q 值, 這樣我們就沒必要在表格中記錄 Q 值。而是直接使用神經網絡生成 Q 值. 也能只輸入狀態值, 輸出所有的動作值, 然後按照 Q learning 的原則, 直接選擇擁有最大值的動作當做下一步要做
相關文章
相關標籤/搜索