強化學習入門——使用DQN訓練CartPole

       作爲剛入門強化學習的小白,最近幾天在寫一些基礎的代碼,使用DQN訓練CartPole問題。        DQN是2013年DeepMind提出來的使用Q-learning與神經網絡相結合的方法,其實和Q-learning的思想相同,只不過是計算的時候使用神經網絡計算Q值。Q-learning簡要說一下,就是使用函數逼近的方法,在選擇動作時使用epsilon-greedy的方法,在更
相關文章
相關標籤/搜索