強化學習入門(五)連續動作空間內,使用DDPG求解強化學習問題

本文內容源自百度強化學習 7 日入門課程學習整理 感謝百度 PARL 團隊李科澆老師的課程講解 文章目錄 一、離散動作 VS 連續動作 1.1 區別 1.2 神經網絡修改 1.3 激活函數選擇 二、DDPG(Deep Deterministic Policy Gradient) 2.1 從 DQN 到 DDPG 2.2 Actor-Critic 結構 2.3 DDPG 的優化目標和最佳策略 2.4
相關文章
相關標籤/搜索