強化學習筆記（一） Qlearning & Sarsa

時間 2021-01-03

原文原文鏈接

我的理解: Q learning Sarsa 在一個回合內：初始化s 1. choose(s, Q) => action (策略) 2. move(action, s, Q) => s_ , R 3. Q_fresh(action, s, Q, s_, R) => new_Q （最大值策略） 4. 更新 s = s_ 5. 重複步驟1-5 在一個回合內：初始化s , 並選擇一個動作ac

>>阅读原文<<