q-learning精講

Q-learning Q-learning是一種用於機器學習的強化學習技術。 Q-learning的目標是學習一種策略,告訴Agent在什麼狀況下要採起什麼行動。 它不須要環境模型,能夠處理隨機轉換和獎勵的問題,而無需進行調整。web 對於任何有限馬爾可夫決策過程(FMDP),Q學習找到一種最優的策略,即從當前狀態開始,它在任何和全部後續步驟中最大化總獎勵的預期值。在給定無限探索時間和部分隨機策略
相關文章
相關標籤/搜索