強化學習: On-Policy與 Off-Policy 以及 Q-Learning 與 SARSA

剛接觸強化學習,都避不開On Policy 與Off Policy 這兩個概念。其中典型的代表分別是Q-learning 和 SARSA 兩種方法。這兩個典型算法之間的區別,一斤他們之間具體應用的場景是很多初學者一直比較迷的部分,在這個博客中,我會專門針對這幾個問題進行討論。 以上是兩種算法直觀上的定義。 我們都稱 Q-Learning 是 Off Policy . SARSA 是 On Poli
相關文章
相關標籤/搜索