強化學習6.6

6.6預期的Sarsa 考慮與Q學習一樣的學習算法,除了考慮到當前策略下每個動作的可能性,它使用預期值而不是最大化下一個狀態 - 動作對。 也就是說,考慮具有更新規則的算法 但這遵循Q學習的模式。 給定下一個狀態St + 1,該算法在確定性方向上與Sarsa在移位中移動的方向相同,因此稱爲Erpected Sarsa。 其備份圖如圖6.4右側所示。 圖6.3:作爲α的函數的TD控制方法對於clif
相關文章
相關標籤/搜索