SARSA 和 Q-learning 的區別

下面這張圖截取自書上的,SARSA算法是在線算法,Q-learn是離線算法。兩者的第一步選擇動作都是epsilon-greedy,而第二部更新Q函數的時候,Q-learning 直接選擇用最優的動作a去更新Q函數,而SARSA選擇用之前的策略採樣出來的A‘去更新Q函數。 這就是爲什麼叫SARSA在線算法,因爲更新策略用的A’和上一步的A都是由一個policy 產生的。 而Q-learning中,更
相關文章
相關標籤/搜索