強化學習實例10:Q-Learning

SARASA算法:python SARSA算法聽從了交互序列,根據下一步的真實行動進行價值估計;算法 另外一種TD法,Q-Learning算法沒有遵循交互序列,而是在下一時刻選擇了使價值最大的行動。dom 這兩種算法表明了兩種策略評估的方式,分別是On-Policy和Off-Policy。函數 On-Policy對值函數的更新是徹底依據交互序列進行的,在計算時認爲價值能夠直接利用採樣的序列估計獲得
相關文章
相關標籤/搜索