On-policy Sarsa算法與Off-policy Q learning對比

時間 2021-01-17

標籤機器學習 Sarsa算法 Q learning 简体版

原文原文鏈接

Sarsa 算法（on-policy）在s狀態時，跟據當前Q網絡以及一定的策略（e-greedy）來選取動作a，進而觀測到下一狀態s'，並再次根據當前Q網絡及相同的e- greedy策略選擇動作a',這樣就有了一個<s，a，r，s'，a'>序列，成爲一個sample。注意： 1.在狀態s'時，就知道了要採取哪個a'，並真的採取了這個動作。 2.動作a的選取遵循e-greedy策略，目標Q值的計

>>阅读原文<<