強化學習:q-learning算法

參考:https://www.cnblogs.com/dragonir/p/6224313.html 前述:        訓練的越多,Q矩陣被優化得越好!   例子:  第一次episode:    想象中:當agent處於狀態5,只能去(5,1) (5,4) (5,5) Q矩陣更新爲: 第二次episode: 3能去 (3,1) (3,2)  (3,4)   隨機地,我們選擇(3,1) 想象中
相關文章
相關標籤/搜索