強化學習實例10：Q-Learning

時間 2019-12-06

標籤強化學習實例 learning 简体版

原文原文鏈接

SARASA算法：python SARSA算法聽從了交互序列，根據下一步的真實行動進行價值估計；算法另外一種TD法，Q-Learning算法沒有遵循交互序列，而是在下一時刻選擇了使價值最大的行動。dom 這兩種算法表明了兩種策略評估的方式，分別是On-Policy和Off-Policy。函數 On-Policy對值函數的更新是徹底依據交互序列進行的，在計算時認爲價值能夠直接利用採樣的序列估計獲得

>>阅读原文<<