【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.3】基於神經網絡方法求解RL

時間 2021-01-10

原文原文鏈接

一、學習內容 3.基於神經網絡方法求解RL 3.1函數逼近與神經網絡當狀態空間非常龐大的時候，用Q表格來對Q-value進行評估，內存方面非常不現實。因此可以加個w參數，改用值函數擬合的方法：一個簡單的例子如圖所示，神經網絡輸出動作，定義損失函數，進行優化： Q-learning的流程：用神經網絡： 3.2DQN算法解析 DQN的2大創新點在於：經驗回放，和固定Q目標。分別是爲了解決樣本關

>>阅读原文<<