RL學習筆記-6-DDPG 算法

時間 2021-08-15

標籤強化學習简体版

原文原文鏈接

在連續控制領域，比較經典的強化學習算法就是 DDPG(Deep Deterministic Policy Gradient)。DDPG 的特點可以從它的名字當中拆解出來，拆解成 Deep、Deterministic 和 Policy Gradient。 Deep 是因爲用了神經網絡； Deterministic 表示 DDPG 輸出的是一個確定性的動作，可以用於連續動作的一個環境； Policy

>>阅读原文<<