強化學習6.6

時間 2021-01-20

原文原文鏈接

6.6預期的Sarsa 考慮與Q學習一樣的學習算法，除了考慮到當前策略下每個動作的可能性，它使用預期值而不是最大化下一個狀態 - 動作對。也就是說，考慮具有更新規則的算法但這遵循Q學習的模式。給定下一個狀態St + 1，該算法在確定性方向上與Sarsa在移位中移動的方向相同，因此稱爲Erpected Sarsa。其備份圖如圖6.4右側所示。圖6.3：作爲α的函數的TD控制方法對於clif

>>阅读原文<<