Deep Q-learning

https://www.bilibili.com/video/av16921335?p=14 DQN 兩種模型 狀態和動作作輸入,得到動作的Q值 狀態作輸入,所有動作的Q值作輸出,選擇Q值最大的對應的動作作爲接下來要做的動作。 作業是第二種 神經網絡的更新 DQN強大的根本原因 DQN有記憶庫用於學習之前的經歷 Q-learning是一種off-poilcy的離線學習法,可以學習當前經歷着的,也可
相關文章
相關標籤/搜索