Q-learning算法實現1（matlab）

時間 2021-01-12

原文原文鏈接

算法僞代碼：得到Q表後，根據如下算法選擇最優策略：以機器人走房間爲例，代碼實現如下：原文鏈接如下：https://www.jianshu.com/p/29db50000e3f 注：原文中的房間狀態0-5分別對應代碼中1-6 %機器人走房間Q-learning的實現 %% 基本參數 episode=100; %探索的迭代次數 alpha=1;%更新步長 gamma=0.8;%折扣因子 stat

>>阅读原文<<