SARSA時序差分學習方法

什麼是SARSA SARSA算法的全稱是State Action Reward State Action,屬於時序差分學習算法的一種,其綜合了動態規劃算法和蒙特卡洛算法,比僅僅使用蒙特卡洛方法速度要快很多。當時序差分學習算法每次更新的動作數爲最大步數時,就等價於蒙特卡洛方法。 值函數更新公式的引入:多次試驗的平均 SARSA的核心思想在於增量計算。在蒙特卡洛算法中,我們需要對 Q Q Q函數 Q
相關文章
相關標籤/搜索