深度強化學習——連續動作控制DDPG、NAF

時間 2021-07-13

原文原文鏈接

一、存在的問題 DQN是一個面向離散控制的算法，即輸出的動作是離散的。對應到Atari 遊戲中，只需要幾個離散的鍵盤或手柄按鍵進行控制。然而在實際中，控制問題則是連續的，高維的，比如一個具有6個關節的機械臂，每個關節的角度輸出是連續值，假設範圍是0°~360°，歸一化後爲（-1，1）。若把每個關節角取值範圍離散化，比如精度到0.01，則一個關節有200個取值，那麼6個關節共有2006 個取值，若

>>阅读原文<<