強化學習： On-Policy與 Off-Policy 以及 Q-Learning 與 SARSA

時間 2021-01-02

原文原文鏈接

剛接觸強化學習，都避不開On Policy 與Off Policy 這兩個概念。其中典型的代表分別是Q-learning 和 SARSA 兩種方法。這兩個典型算法之間的區別，一斤他們之間具體應用的場景是很多初學者一直比較迷的部分，在這個博客中，我會專門針對這幾個問題進行討論。以上是兩種算法直觀上的定義。我們都稱 Q-Learning 是 Off Policy . SARSA 是 On Poli

>>阅读原文<<