Sarsa

Sarsa的決策部分與Q-Learning一樣,使用Q表形式,挑選值較大的動作施加在環境中來換取獎懲,但sarsa的更新方式不同。其更新準則如下:  同樣, 在 時挑選一個帶來最大潛在獎勵的動作 a2繼續寫作業狀態 s2。  此時, 如果是 Q learning, 首先會觀看一下在 s2 上選取哪一個動作會帶來最大的獎勵, 但是在真正要做決定時, 卻不一定會選取到那個帶來最大獎勵的動作, Q-le
相關文章
相關標籤/搜索