強化學習入門（五）連續動作空間內，使用DDPG求解強化學習問題

時間 2021-01-11

標籤強化學習人工智能機器學習算法百度简体版

原文原文鏈接

本文內容源自百度強化學習 7 日入門課程學習整理感謝百度 PARL 團隊李科澆老師的課程講解文章目錄一、離散動作 VS 連續動作 1.1 區別 1.2 神經網絡修改 1.3 激活函數選擇二、DDPG（Deep Deterministic Policy Gradient） 2.1 從 DQN 到 DDPG 2.2 Actor-Critic 結構 2.3 DDPG 的優化目標和最佳策略 2.4

>>阅读原文<<