q-learning精講

時間 2021-07-12

原文原文鏈接

Q-learning Q-learning是一種用於機器學習的強化學習技術。 Q-learning的目標是學習一種策略，告訴Agent在什麼情況下要採取什麼行動。它不需要環境模型，可以處理隨機轉換和獎勵的問題，而無需進行調整。對於任何有限馬爾可夫決策過程（FMDP），Q學習找到一種最優的策略，即從當前狀態開始，它在任何和所有後續步驟中最大化總獎勵的預期值。在給定無限探索時間和部分隨機策略的情況

>>阅读原文<<