【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.3】基於神經網絡方法求解RL

一、學習內容 3.基於神經網絡方法求解RL 3.1函數逼近與神經網絡 當狀態空間非常龐大的時候,用Q表格來對Q-value進行評估,內存方面非常不現實。 因此可以加個w參數,改用值函數擬合的方法: 一個簡單的例子如圖所示,神經網絡輸出動作,定義損失函數,進行優化: Q-learning的流程: 用神經網絡: 3.2DQN算法解析 DQN的2大創新點在於:經驗回放,和固定Q目標。分別是爲了解決樣本關
相關文章
相關標籤/搜索