強化學習(reinforcement learning)教程

前一陣研究強化學習,發現中文的資料很是少,實例就更少。因而翻譯一篇q學習算法的教程,供須要的人學習。算法 原文連接:http://mnemstudio.org/path-finding-q-learning-tutorial.htm學習 正文:優化 Q學習算法是一種用來解決馬爾可夫決策過程當中最優化問題的方法。Q學習算法最大的特色是它具備選擇瞬時獎勵和延遲獎勵的能力。在每一步中,agent經過觀察
相關文章
相關標籤/搜索