TD Learning，SARSA，Q Learning

時間 2021-01-03

標籤強化學習简体版

原文原文鏈接

最近在讀一篇增強學習的綜述 DEEP REINFORCEMENT LEARNING : AN OVERVIEW 發現裏邊介紹SARSA時，僞代碼是錯誤的。 1.TD Learning 2.SARSA 錯誤就在於，sarsa算法的下一個動作在這次更新時就已經確定了。所以需要在step迭代之前對action進行初始化。 3.Q Learning TD Learning包含Q Learning和sars

>>阅读原文<<