強化學習——Q-learning算法

Q-learning 簡介 Q-learning是一個無模型強化學習算法。Q-learning的目標是學習一個策略,它告訴agent在什麼狀況下應該採起什麼行動。它不須要環境的模型(所以就有了「無模型」的含義),而且它能夠處理隨機轉換和獎勵的問題,而不須要適應。web 對於任何有限馬爾可夫決策過程(FMDP), Q-learning發現一個策略是最優的,從這個意義上說,它從當前狀態開始,在全部連續
相關文章
相關標籤/搜索