RL學習筆記-6-DDPG 算法

在連續控制領域,比較經典的強化學習算法就是 DDPG(Deep Deterministic Policy Gradient)。DDPG 的特點可以從它的名字當中拆解出來,拆解成 Deep、Deterministic 和 Policy Gradient。 Deep 是因爲用了神經網絡; Deterministic 表示 DDPG 輸出的是一個確定性的動作,可以用於連續動作的一個環境; Policy
相關文章
相關標籤/搜索