Q-learning算法實踐

我們將會應用 Q-learning 算法完成一個經典的 Markov 決策問題 -- 走迷宮! 項目描述: 在該項目中,你將使用強化學習算法,實現一個自動走迷宮機器人。 如上圖所示,智能機器人顯示在右上角。在我們的迷宮中,有陷阱(紅色炸彈)及終點(藍色的目標點)兩種情景。機器人要儘量避開陷阱、儘快到達目的地。 小車可執行的動作包括:向上走 u、向右走 r、向下走 d、向左走 l。 執行不同的動作後
相關文章
相關標籤/搜索