Q學習動做探索策略中的ep-greepy,以ep的機率進行隨機探索,以1-ep的機率以最大值策略進行開發,由於設定的迭代次數比較多,因此確定存在必定的次數去搜索不一樣的動做。git
1)Python版本github
b站上的學習教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是數據處理包。使用其餘語言也是能夠的,用矩陣代替,主要是用多維矩陣保存數據,而後對矩陣進行計算處理。c#
2)c語言版本學習
https://blog.csdn.net/qq_23144435/article/details/80368635.net
3)C++版本blog
https://github.com/jinfagang/Q-Learning/blob/master/main.cpp教程
4)一個完整的unity demo項目,使用c# 語言開發
https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assetspandas