SARASA(λ)算法物理含義解釋

廢話不多說 先上圖: 可以看到與普通sarsa算法主要的不同在於多了一個矩陣 E(s,a),而至於多出來的奇怪的參數在你理解了這個矩陣的做用後就都一切顯得合理了。s取遍所有狀態,a取遍所有動作,這和Q-table的架構是一樣的,不一樣的是這個矩陣學名叫做資格跡矩陣,不理解無所謂,因爲不影響理解算法的想法。用大白話說就是這個矩陣起到了本次episode(是本次,因爲每個大循環E都要歸0)中,記錄Ag
相關文章
相關標籤/搜索