Q-learning和Sarsa的區別

因此對於SARSA來說 1.在狀態s’時,就知道了要採取哪個a’,並真的採取了這個動作。 2.動作a的選取遵循e-greedy策略,目標Q值的計算也是根據(e-greedy)策略得到的動作a’計算得來,因此爲on-policy學習。 (選擇下個動作的存在探索的可能性) 而對於Q-learning來說 只會選擇使得下個狀態Q值最大的下個動作。 Q-learning 只會估計下個動作是什麼(使得下個狀
相關文章
相關標籤/搜索