基於策略的強化學習(四)：深度確定性策略梯度(DDPG)算法

時間 2020-12-30

標籤強化學習機器學習简体版

原文原文鏈接

深度確定性策略梯度(DDPG)算法深度確定性策略梯度算法是使用深度學習技術、同時基於 Actor—Critic 算法的確定性策略算法。該算法中的 Actor 和 Critic 都使用深度神經網絡來建立近似函數。由於該算法可以直接從 Actor 的策略生成確定的行爲而不需要依據行爲的概率分佈進行採樣而被稱爲確定性策略。該算法在學習階段通過在確定性的行爲基礎上增加一個噪聲函數而實現在確定性行爲周圍的

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。