時間差分方法Q-learning和sarsa的區別

原文鏈接:https://blog.csdn.net/qq_27514521/article/details/81146632 Q-learning和sarsa都是利用時間差分目標來更新當前行爲值函數的。唯一不同的是在Q-learning中,行動策略(產生數據的策略)和要評估的策略不是一個策略,因此稱之爲異策略(off-policy),而在sarsa中,正好相反,也就是行動策略(產生數據的策略)和
相關文章
相關標籤/搜索