Q-learning算法實現1(matlab)

算法僞代碼:算法 獲得Q表後,根據以下算法選擇最優策略:dom 以機器人走房間爲例,代碼實現以下:code 原文連接以下:https://www.jianshu.com/p/29db50000e3fblog 注:原文中的房間狀態0-5分別對應代碼中1-6get %機器人走房間Q-learning的實現 %% 基本參數 episode=100; %探索的迭代次數 alpha=1;%更新步長 gamm
相關文章
相關標籤/搜索