Q-learning與Sarsa原理以及區別

時間 2021-01-16

原文原文鏈接

Q-learning 上一狀態是在S1；現在的狀態S2 上一狀態所採取的行動a2;現在將要採取的行動a2 Q-learning是通過本狀態（S2）所對應Q表中的最大值maxQ(S2)來更新在上一狀態（S1）時所採取的行動Q(s1,a2)的值通俗一點的解釋一下：也就是當我到達S2之後，S2的下一步也是確定的，即maxQ(S2)，然後利用maxQ(S2)更新Q(s1,a2) Sarsa Sasra

>>阅读原文<<