強化學習——Q-learning算法

時間 2019-12-06

標籤強化學習 learning 算法简体版

原文原文鏈接

Q-learning 簡介 Q-learning是一個無模型強化學習算法。Q-learning的目標是學習一個策略，它告訴agent在什麼狀況下應該採起什麼行動。它不須要環境的模型(所以就有了「無模型」的含義)，而且它能夠處理隨機轉換和獎勵的問題，而不須要適應。web 對於任何有限馬爾可夫決策過程(FMDP)， Q-learning發現一個策略是最優的，從這個意義上說，它從當前狀態開始，在全部連續

>>阅读原文<<