強化學習從入門到放棄(二)Q-learning 與 Sarsa

Q-Learning 與 Sarsa q-learning 與sarsa都是model free情況下通過 TD求解的Bellman equation的方法。他們的區別是q-learning是off-policy的,sarsa是on-policy的。 公式對比 Sarsa: Q-learning: 二者的區別: 網上都在說sarsa是一個保守的算法,而q-learning是一個更價激進的算法,這是
相關文章
相關標籤/搜索