Reinforcement Learning - An Introduction強化學習讀書筆記 Ch6.4-Ch6.9

時間 2021-01-13

標籤強化學習入門強化學習简体版

原文原文鏈接

6.4 Sarsa：on-policy下的時序差分控制 TD方法學習的是動作價值函數，更新方程爲：其中Qhat表示對Q的估計，不同的算法對Qhat有不同的計算。 Sarsa算法: 更新方程爲：由於算法的每次更新需要用到當前時刻的S和A，和下一時刻的R、S、A，所以取首字母稱爲sarsa。 Sarsa是一種on-policy的算法，與MC算法相似，需要保持各個狀態被多次訪問才能收斂，使用軟性策略

>>阅读原文<<