Deep Q-learning

時間 2021-07-13

原文原文鏈接

https://www.bilibili.com/video/av16921335?p=14 DQN 兩種模型狀態和動作作輸入，得到動作的Q值狀態作輸入，所有動作的Q值作輸出，選擇Q值最大的對應的動作作爲接下來要做的動作。作業是第二種神經網絡的更新 DQN強大的根本原因 DQN有記憶庫用於學習之前的經歷 Q-learning是一種off-poilcy的離線學習法，可以學習當前經歷着的，也可