加強學習之Q-learning走迷宮

時間 2020-05-23

標籤加強學習 learning 迷宮简体版

原文原文鏈接

Q-Learning算法整個算法就是一直不斷更新 Q table 裏的值, 而後再根據新的值來判斷要在某個 state 採起怎樣的 action. Qlearning 是一個 off-policy 的算法, 由於裏面的 max action 讓 Q table 的更新能夠不基於正在經歷的經驗(能夠是如今學習着好久之前的經驗,甚至是學習他人的經驗).python Q-learning中的Q函數 -

>>阅读原文<<