Q-Learning實現

時間 2020-05-23

標籤 learning 實現简体版

原文原文鏈接

一、算法：整個算法就是一直不斷更新 Q table 裏的值, 而後再根據新的值來判斷要在某個 state 採起怎樣的 action. Qlearning 是一個 off-policy 的算法, 由於裏面的 max action 讓 Q table 的更新能夠不基於正在經歷的經驗(能夠是如今學習着好久之前的經驗,甚至是學習他人的經驗). 不過這一次的例子, 咱們沒有運用到 off-policy,

>>阅读原文<<