q-learning精講

時間 2020-02-07

標籤 learning 简体版

原文原文鏈接

Q-learning Q-learning是一種用於機器學習的強化學習技術。 Q-learning的目標是學習一種策略，告訴Agent在什麼狀況下要採起什麼行動。它不須要環境模型，能夠處理隨機轉換和獎勵的問題，而無需進行調整。web 對於任何有限馬爾可夫決策過程（FMDP），Q學習找到一種最優的策略，即從當前狀態開始，它在任何和全部後續步驟中最大化總獎勵的預期值。在給定無限探索時間和部分隨機策略

>>阅读原文<<