強化學習,深度強化學習

DQN的侷限性 Atari 遊戲所需的動做是離散的(有時間間隔的輸出),相對低維的(只有少數幾個動做),而實際的控制問題則是連續的,高維的。DQN沒法直接應用到這樣的領域,由於連續的值(好比輸出一個速度)須要在每一步都做出優化迭代,DQN只是根據動做對Q值作優化。  要直接應用DQN到連續動做領域,最簡單的作法就是將連續動做離散化,也就是依然每一個時間間隔輸出一個動做值,把每一個動做也離散化。但這
相關文章
相關標籤/搜索