強化學習(二):Sarsa

Sarsa(state-action-reward-state_-action_) 1.與Q_Learning的區別     Sarsa是on-policy,即在線學習型,下一個 state_和action_ 將會變成他真正採取的 action 和 state;Q_Learning是off-policy,即離線學習型,state_和 action_ 在算法更新的時候都還是不確定的。這種不同之處使得
相關文章
相關標籤/搜索