Q學習（Q-learning）入門小例子及python實現

時間 2020-05-23

標籤學習 learning 入門例子 python 實現欄目 Python 简体版

原文原文鏈接

1、從馬爾科夫過程到Q學習 # 有必定基礎的讀者能夠直接看第二部分python Q學習（Q-learning）算法是一種與模型無關的強化學習算法，以馬爾科夫決策過程（Markov Decision Processes, MDPs）爲理論基礎。算法標準的馬爾科夫決策過程能夠用一個五元組<S,A,P,R,γ> 表示，其中：app S是一個離散有界的狀態空間； A是一個離散的動做空間； P爲狀態轉移

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。