SARSA時序差分學習方法

時間 2021-01-14

標籤人工智能简体版

原文原文鏈接

什麼是SARSA SARSA算法的全稱是State Action Reward State Action，屬於時序差分學習算法的一種，其綜合了動態規劃算法和蒙特卡洛算法，比僅僅使用蒙特卡洛方法速度要快很多。當時序差分學習算法每次更新的動作數爲最大步數時，就等價於蒙特卡洛方法。值函數更新公式的引入：多次試驗的平均 SARSA的核心思想在於增量計算。在蒙特卡洛算法中，我們需要對 Q Q Q函數 Q

>>阅读原文<<