Q-Learning

Q-Learning off-policy 1.公式解讀 https://www.zhihu.com/question/26408259 2.公式=>矩陣示例 房間最優路徑問題 http://www.javashuo.com/article/p-rvlhihrj-dy.html http://mnemstudio.org/path-finding-q-learning-tutorial.htm 注
相關文章
相關標籤/搜索