強化學習組隊學習task06——DDPG 算法

時間 2021-06-22

標籤強化學習简体版

原文原文鏈接

文章目錄一、離散動作和連續動作二、DDPG(Deep Deterministic Policy Gradient) Actor-Critic結構一、離散動作和連續動作離散動作與連續動作是相對的概念，一個是可數的，一個是不可數的。離散動作比如推小車的方向有前後左右四個方向連續動作比如說推小車力的大小、選擇下一時刻方向盤的轉動角度或者四軸飛行器的四個螺旋槳給的電壓的大小等等。對於這些

>>阅读原文<<