強化學習筆記(2)：Sarsa 與 Sarsa(lambda)

時間 2021-01-03

標籤 Sarsa Sarsa(lambda) 強化學習 on policy 简体版

原文原文鏈接

1.Sarsa 算法上篇文章中介紹了Q-Learning算法，而Sarsa 和 Q-Learning是非常類似的，二者在決策環節都是基於Q表，挑選值較大的動作值施加在環境中來換取回報。但是區別在於 Sarsa 的更新方式不一樣。下面以強化學習筆記(1)中老鼠走迷宮爲例，對Sarsa算法流程進行說明(Sarsa 和 Q-Learning的不同之處用粗體標出)：首先初始化決策表 Q Q ，令

>>阅读原文<<