強化學習筆記(一) Qlearning & Sarsa

  我的理解: Q learning Sarsa 在一個回合內: 初始化s 1. choose(s, Q) => action  (策略) 2. move(action, s, Q) => s_ , R  3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略) 4. 更新 s = s_ 5. 重複步驟1-5 在一個回合內: 初始化s , 並選擇一個動作ac
相關文章
相關標籤/搜索