強化學習之 SARSA (State-Action-Reward-State’-Action’)

時間 2021-01-08

標籤機器學習強化學習算法人工智能简体版

原文原文鏈接

（1）SARSA算法通常使用ϵ-貪心策略進行策略評估和改進在線策略時序差分控制（on-policy TD control）使用當前策略進行動作採樣，即，SARSA算法中的兩個「A」都是由當前策略選擇的（2）SARSA得到的長期回報方差比蒙特卡洛法小蒙特卡洛法估計價值的時候使用完整序列，TD使用下個時刻，所以當系統沒有達到最優的時候，TD會有固有偏差，但是不太大。蒙特卡洛和SARSA象徵兩個極

>>阅读原文<<