基於table的Q learning和Sarsa算法

時間 2021-01-17

標籤增強學習算法表格法简体版

原文原文鏈接

Off-policy Q learning算法和On-policy Sarsa learning都是時序差分（TD）下對動作價值函數優化的單步方法，在沒有神經網絡之前，都是通過table的方法，下面簡單介紹一下：最佳決策可以通過遍歷所有的情況去得到，有些時候情況比較多元，只能通過部分的情況去學習經驗，然後得到一個亞最佳決策（趨近於最佳決策）。那麼如何得到亞最佳決策是我們關心的問題。 O

>>阅读原文<<