深度強化學習——連續動作控制DDPG、NAF

傳統的DQN只適用於離散動作控制,而DDPG和NAF是深度強化學習在連續動作控制上的拓展。 一、存在的問題 DQN是一個面向離散控制的算法,即輸出的動作是離散的。對應到Atari 遊戲中,只需要幾個離散的鍵盤或手柄按鍵進行控制。 然而在實際中,控制問題則是連續的,高維的,比如一個具有6個關節的機械臂,每個關節的角度輸出是連續值,假設範圍是0°~360°,歸一化後爲(-1,1)。若把每個關節角取值範
相關文章
相關標籤/搜索