Q-learning和Sarsa的區別

時間 2021-01-10

標籤強化學習简体版

原文原文鏈接

因此對於SARSA來說 1.在狀態s’時，就知道了要採取哪個a’，並真的採取了這個動作。 2.動作a的選取遵循e-greedy策略，目標Q值的計算也是根據（e-greedy）策略得到的動作a’計算得來，因此爲on-policy學習。（選擇下個動作的存在探索的可能性）而對於Q-learning來說只會選擇使得下個狀態Q值最大的下個動作。 Q-learning 只會估計下個動作是什麼（使得下個狀

>>阅读原文<<