TD3:雙延遲深度確定性策略梯度算法

目錄 模型架構 Double Q-learning Target Policy Smoothing​ Delayed 損失函數 學習過程 TD3:Twin Delayed Deep Deterministic Policy Gradient,是一種面向連續動作空間基於Actor-Critic架構的深度強化學習算法,在DDPG算法基礎上,同時對policy網絡和value網絡進行改進,優化了Q-Va
相關文章
相關標籤/搜索