DQN——Deep Q Network

1、什麼是DQN? DQN是通過多個Q-learning來訓練卷積神經網絡從而實現高維輸入任務的策略控制。神經網絡的返回值是Q(s, a)。 2、DQN是value based 還是policy based? 是value-based,DQN是根據估計的動作價值函數選擇動作的。而policy based是參數化策略然後最大化性能指標的辦法。 3、DQN是on-policy還是off-policy?
相關文章
相關標籤/搜索