TD3：雙延遲深度確定性策略梯度算法

時間 2021-01-08

標籤強化學習 DDPG TwinDelayedDDPG 雙延遲DDPG 雙延遲確定性策略梯度 TD3 简体版

原文原文鏈接

目錄模型架構 Double Q-learning Target Policy Smoothing Delayed 損失函數學習過程 TD3：Twin Delayed Deep Deterministic Policy Gradient，是一種面向連續動作空間基於Actor-Critic架構的深度強化學習算法，在DDPG算法基礎上，同時對policy網絡和value網絡進行改進，優化了Q-Va

>>阅读原文<<