基於策略的強化學習(四):深度確定性策略梯度(DDPG)算法

深度確定性策略梯度(DDPG)算法 深度確定性策略梯度算法是使用深度學習技術、同時基於 Actor—Critic 算法的確定性策略算法。該算法中的 Actor 和 Critic 都使用深度神經網絡來建立近似函數。由於該算法可以直接從 Actor 的策略生成確定的行爲而不需要依據行爲的概率分佈進行採樣而被稱爲確定性策略。該算法在學習階段通過在確定性的行爲基礎上增加一個噪聲函數而實現在確定性行爲周圍的
相關文章
相關標籤/搜索