強化學習——從Q-Learning到DQN到底發生了什麼?

1 學習目標 1. 複習Q-Learning; 2. 理解什麼是值函數近似(Function Approximation); 3. 理解什麼是DQN,弄清它和Q-Learning的區別是什麼。 2 用Q-Learning解決經典迷宮問題 現有一個5房間的房子,如圖1所示,房間與房間之間通過門連接,編號0到4,5號是房子外邊,即我們的終點。我們將agent隨機放在任一房間內,每打開一個房門返回一個r
相關文章
相關標籤/搜索