Q-learning與Sarsa原理以及區別

Q-learning 上一狀態是在S1;現在的狀態S2 上一狀態所採取的行動a2;現在將要採取的行動a2 Q-learning是通過本狀態(S2)所對應Q表中的最大值maxQ(S2)來更新在上一狀態(S1)時所採取的行動Q(s1,a2)的值 通俗一點的解釋一下: 也就是當我到達S2之後,S2的下一步也是確定的,即maxQ(S2),然後利用maxQ(S2)更新Q(s1,a2) Sarsa Sasra
相關文章
相關標籤/搜索