Deep Q learning: DQN及其改進

時間 2021-01-16

標籤 DQN Double DQN Prioritized Replay Dueling DQN Advatage Function 简体版

原文原文鏈接

Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神經網絡來表示價值函數策略模型使用隨機梯度下降(SGD)優化loss函數 Deep Q-Networks(DQNs) 使用帶權重集 w \textbf{w} w的Q-network來表示狀態-動作價值函數 Q ^ ( s , a ; w ) ≈ Q ( s , a

>>阅读原文<<