q-learning精講

Q-learning Q-learning是一種用於機器學習的強化學習技術。 Q-learning的目標是學習一種策略,告訴Agent在什麼情況下要採取什麼行動。 它不需要環境模型,可以處理隨機轉換和獎勵的問題,而無需進行調整。 對於任何有限馬爾可夫決策過程(FMDP),Q學習找到一種最優的策略,即從當前狀態開始,它在任何和所有後續步驟中最大化總獎勵的預期值。在給定無限探索時間和部分隨機策略的情況
相關文章
相關標籤/搜索