Q學習(Q-learning)入門小例子及python實現

1、從馬爾科夫過程到Q學習 # 有必定基礎的讀者能夠直接看第二部分python Q學習(Q-learning)算法是一種與模型無關的強化學習算法,以馬爾科夫決策過程(Markov Decision Processes, MDPs)爲理論基礎。算法 標準的馬爾科夫決策過程能夠用一個五元組<S,A,P,R,γ> 表示,其中:app S是一個離散有界的狀態空間; A是一個離散的動做空間;  P爲狀態轉移
相關文章
相關標籤/搜索