sarsa和q-learning區別

sarsa是on policy q-learning是off policy  區別在於更新Q值的時候,直接使用了最大的Q(st+1,a),相當於採用了Q(st+1,a)值最大的動作,即與t時刻a動作所採用的policy無關
相關文章
相關標籤/搜索