SARSA 和 Q-learning 的區別

時間 2021-01-10

標籤機器學習算法简体版

原文原文鏈接

下面這張圖截取自書上的，SARSA算法是在線算法，Q-learn是離線算法。兩者的第一步選擇動作都是epsilon-greedy,而第二部更新Q函數的時候，Q-learning 直接選擇用最優的動作a去更新Q函數，而SARSA選擇用之前的策略採樣出來的A‘去更新Q函數。這就是爲什麼叫SARSA在線算法，因爲更新策略用的A’和上一步的A都是由一個policy 產生的。而Q-learning中，更

>>阅读原文<<