強化深度學習task06連續動作空間和DDPG

一、連續動作和離散動作 連續動作:動作是連續的浮點數比如速度、推力、角度、電壓等 離散動作:動作是離散值,比如上下左右等。 求解方法: 離散動作:softmax映射 連續動作:tanh連續映射 二、DDPG 是DQN的擴展版,可擴展至連續空間 actor-critic結構 演員輸出動作,並根據評論家的評判修改動作策略,評論家根據分數(觀衆反應)得出動作評判標準
相關文章
相關標籤/搜索