強化深度學習task06連續動作空間和DDPG

時間 2021-07-08

原文原文鏈接

一、連續動作和離散動作連續動作：動作是連續的浮點數比如速度、推力、角度、電壓等離散動作：動作是離散值，比如上下左右等。求解方法：離散動作：softmax映射連續動作：tanh連續映射二、DDPG 是DQN的擴展版，可擴展至連續空間 actor-critic結構演員輸出動作，並根據評論家的評判修改動作策略，評論家根據分數（觀衆反應）得出動作評判標準

>>阅读原文<<