強化學習，深度強化學習

時間 2020-12-27

原文原文鏈接

DQN的侷限性 Atari 遊戲所需的動作是離散的（有時間間隔的輸出），相對低維的（只有少數幾個動作），而實際的控制問題則是連續的，高維的。DQN無法直接應用到這樣的領域，因爲連續的值（比如輸出一個速度）需要在每一步都作出優化迭代，DQN只是根據動作對Q值做優化。要直接應用DQN到連續動作領域，最簡單的做法就是將連續動作離散化，也就是依然每個時間間隔輸出一個動作值，把每個動作也離散化。但這樣存

>>阅读原文<<