Q_learning算法理解

時間 2021-01-01

標籤強化學習简体版

原文原文鏈接

Q_learning 是一種model_free類的強化學習的算法,即從環境中得到反饋進而來學習的. 生動形象的解釋參考這個視頻; 記錄Q_learning算法的個人理解: 註釋:alpha是學習率, 來決定這次的誤差有多少是要被學習的, alpha是一個小於1 的數. gamma 是對未來 reward 的衰減值. Q(s2)是下一次策略執行後的獎賞 Q(s, a)是更新該步的獎賞 r是指到達是

>>阅读原文<<