加強學習之Q-learning走迷宮

Q-Learning算法 整個算法就是一直不斷更新 Q table 裏的值, 而後再根據新的值來判斷要在某個 state 採起怎樣的 action. Qlearning 是一個 off-policy 的算法, 由於裏面的 max action 讓 Q table 的更新能夠不基於正在經歷的經驗(能夠是如今學習着好久之前的經驗,甚至是學習他人的經驗).python Q-learning中的Q函數 -
相關文章
相關標籤/搜索