強化學習之DDPG（deep deterministic policy gradient）

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

1）出發點是什麼？之前的幾種算法是基於離散動作的，現實生活中會存在連續動作，比如方向盤的角度等等。DDPG是爲了解決連續動作應用而生。與上一個博客不同的是激活函數的選擇是tanh,將動作縮放到一定的區間，這樣來表示連續動作。 2）什麼是DDPG？一張圖很清晰啦。使用到了上一個博客中的時序差分，並且是確定性策略。在DDPG中，輸入的動作需要由策略網絡產生，這樣完整的網絡稱爲演員-評論家模式。

>>阅读原文<<