強化學習筆記(2):Sarsa 與 Sarsa(lambda)

1.Sarsa 算法 上篇文章中介紹了Q-Learning算法, 而Sarsa 和 Q-Learning是非常類似的,二者在決策環節都是基於Q表,挑選值較大的動作值施加在環境中來換取回報。但是區別在於 Sarsa 的更新方式不一樣。 下面以強化學習筆記(1)中老鼠走迷宮爲例,對Sarsa算法流程進行說明(Sarsa 和 Q-Learning的不同之處用粗體標出): 首先初始化決策表 Q Q ,令
相關文章
相關標籤/搜索