強化學習——DQN算法

Off-Policy:會記憶之前的經驗,依據經驗做決策。 Experience replay:記憶庫(用於重複學習) Fixed Q-targets:暫時凍結q_target函數(切斷相關性) 這裏邊的q_target就是Q現實 兩個神經網絡是爲了固定住一個神經網絡 (target_net) 的參數, target_net 是 eval_net的一個歷史版本, 擁有 eval_net 很久之前的一
相關文章
相關標籤/搜索