強化學習：q-learning算法

時間 2021-01-01

標籤人工智能简体版

原文原文鏈接

參考：https://www.cnblogs.com/dragonir/p/6224313.html 前述：訓練的越多，Q矩陣被優化得越好！例子：第一次episode：想象中：當agent處於狀態5，只能去(5,1) (5,4) (5,5) Q矩陣更新爲：第二次episode： 3能去（3,1） (3,2) (3,4) 隨機地，我們選擇（3,1）想象中

>>阅读原文<<