On-policy Sarsa算法與Off-policy Q learning對比

Sarsa 算法(on-policy) 在s狀態時,跟據當前Q網絡以及一定的策略(e-greedy)來選取動作a,進而觀測到下一狀態s',並再次根據當前Q網絡及相同的e- greedy策略選擇動作a',這樣就有了一個<s,a,r,s',a'>序列,成爲一個sample。 注意: 1.在狀態s'時,就知道了要採取哪個a',並真的採取了這個動作。 2.動作a的選取遵循e-greedy策略,目標Q值的計
相關文章
相關標籤/搜索