強化學習 之 SARSA (State-Action-Reward-State’-Action’)

(1)SARSA算法通常使用ϵ-貪心策略進行策略評估和改進 在線策略時序差分控制(on-policy TD control)使用當前策略進行動作採樣,即,SARSA算法中的兩個「A」都是由當前策略選擇的 (2)SARSA得到的長期回報方差比蒙特卡洛法小 蒙特卡洛法估計價值的時候使用完整序列,TD使用下個時刻,所以當系統沒有達到最優的時候,TD會有固有偏差,但是不太大。蒙特卡洛和SARSA象徵兩個極
相關文章
相關標籤/搜索