強化學習,深度強化學習

DQN的侷限性 Atari 遊戲所需的動作是離散的(有時間間隔的輸出),相對低維的(只有少數幾個動作),而實際的控制問題則是連續的,高維的。DQN無法直接應用到這樣的領域,因爲連續的值(比如輸出一個速度)需要在每一步都作出優化迭代,DQN只是根據動作對Q值做優化。  要直接應用DQN到連續動作領域,最簡單的做法就是將連續動作離散化,也就是依然每個時間間隔輸出一個動作值,把每個動作也離散化。但這樣存
相關文章
相關標籤/搜索