深度學習-加強學習概覽

時間 2019-12-05

標籤深度學習加強概覽简体版

原文原文鏈接

(1) DQN與DDPG算法離散狀態：api DQN是一個面向離散控制的算法，即輸出的動做是離散的。對應到Atari 遊戲中，只須要幾個離散的鍵盤或手柄按鍵進行控制。網絡然而在實際中，控制問題則是連續的，高維的，好比一個具備6個關節的機械臂，每一個關節的角度輸出是連續值，假設範圍是0°~360°，歸一化後爲（-1，1）。若把每一個關節角取值範圍離散化，好比精度到0.01，則一個關節有200個取

>>阅读原文<<