強化學習--DeepQnetwork 的一些改進

        Double DQN   算Q值 與選Q值是分開的,2個網絡。         Multi-step         Dueling DQN       如果更新了,即使有的action沒有被採樣到,也會更新Q值     Prioritized Reply  Noisy Net Epsilon Greedy 存在的問題是在一局遊戲中, 即使是同一個agent也有可能坐車不不同的選擇
相關文章
相關標籤/搜索