深度強化學習——連續動做控制DDPG、NAF

時間 2020-05-12

標籤深度強化學習連續控制 ddpg naf 简体版

原文原文鏈接

聯繫方式：860122112@qq.comweb 傳統的DQN只適用於離散動做控制，而DDPG和NAF是深度強化學習在連續動做控制上的拓展。算法 1、存在的問題 DQN是一個面向離散控制的算法，即輸出的動做是離散的。對應到Atari 遊戲中，只須要幾個離散的鍵盤或手柄按鍵進行控制。網絡然而在實際中，控制問題則是連續的，高維的，好比一個具備6個關節的機械臂，每一個關節的角度輸出是連續值，假設範圍是

>>阅读原文<<