強化學習從入門到放棄（二）Q-learning 與 Sarsa

時間 2021-01-08

標籤強化學習算法简体版

原文原文鏈接

Q-Learning 與 Sarsa q-learning 與sarsa都是model free情況下通過 TD求解的Bellman equation的方法。他們的區別是q-learning是off-policy的，sarsa是on-policy的。公式對比 Sarsa： Q-learning：二者的區別：網上都在說sarsa是一個保守的算法，而q-learning是一個更價激進的算法，這是

>>阅读原文<<