強化學習--DeepQnetwork 的一些改進

時間 2021-01-04

原文原文鏈接

Double DQN 算Q值與選Q值是分開的，2個網絡。 Multi-step Dueling DQN 如果更新了，即使有的action沒有被採樣到，也會更新Q值 Prioritized Reply Noisy Net Epsilon Greedy 存在的問題是在一局遊戲中，即使是同一個agent也有可能坐車不不同的選擇

>>阅读原文<<