TD Learning,SARSA,Q Learning

最近在讀一篇增強學習的綜述 DEEP REINFORCEMENT LEARNING : AN OVERVIEW 發現裏邊介紹SARSA時,僞代碼是錯誤的。 1.TD Learning 2.SARSA 錯誤就在於,sarsa算法的下一個動作在這次更新時就已經確定了。所以需要在step迭代之前對action進行初始化。 3.Q Learning TD Learning包含Q Learning和sars
相關文章
相關標籤/搜索