Reinforcement Learning - An Introduction強化學習讀書筆記 Ch6.4-Ch6.9

6.4 Sarsa:on-policy下的時序差分控制 TD方法學習的是動作價值函數,更新方程爲: 其中Qhat表示對Q的估計,不同的算法對Qhat有不同的計算。 Sarsa算法: 更新方程爲: 由於算法的每次更新需要用到當前時刻的S和A,和下一時刻的R、S、A,所以取首字母稱爲sarsa。 Sarsa是一種on-policy的算法,與MC算法相似,需要保持各個狀態被多次訪問才能收斂,使用軟性策略
相關文章
相關標籤/搜索