基於table的Q learning和Sarsa算法

Off-policy Q learning算法和On-policy Sarsa learning都是時序差分(TD)下對動作價值函數優化的單步方法,在沒有神經網絡之前,都是通過table的方法,下面簡單介紹一下:   最佳決策可以通過遍歷所有的情況去得到,有些時候情況比較多元,只能通過部分的情況去學習經驗,然後得到一個亞最佳決策(趨近於最佳決策)。 那麼如何得到亞最佳決策是我們關心的問題。   O
相關文章
相關標籤/搜索