強化學習——DQN算法

時間 2020-12-30

原文原文鏈接

Off-Policy：會記憶之前的經驗，依據經驗做決策。 Experience replay：記憶庫（用於重複學習） Fixed Q-targets：暫時凍結q_target函數（切斷相關性）這裏邊的q_target就是Q現實兩個神經網絡是爲了固定住一個神經網絡 (target_net) 的參數, target_net 是 eval_net的一個歷史版本, 擁有 eval_net 很久之前的一

>>阅读原文<<