強化學習（二）：Sarsa

時間 2021-01-03

標籤 Sarsa Reinforcement learning 简体版

原文原文鏈接

Sarsa(state-action-reward-state_-action_) 1.與Q_Learning的區別 Sarsa是on-policy，即在線學習型，下一個 state_和action_ 將會變成他真正採取的 action 和 state；Q_Learning是off-policy，即離線學習型，state_和 action_ 在算法更新的時候都還是不確定的。這種不同之處使得

>>阅读原文<<