Sarsa 與 Q learning對比

時間 2021-01-03

標籤 Q Learning Sarsa 简体版

原文原文鏈接

Sarsa 算法（on-policy）處於狀態 s 時，根據當前 Q網絡以及一定的策略來選取動作 a，進而觀測到下一步狀態 s'，並再次根據當前 Q 網絡及相同的策略選擇動作 a'，這樣就有了一個【 s，a，r，s'，a' 】序列。處於狀態 s' 時，就知道了要採取哪個 a'，並真的採取了這個動作。動作 a 的選取遵循 e-greedy 策略，目標 Q 值的計算也是根據策略得到

>>阅读原文<<