Q-learning和Sarsa

時間 2021-01-03

標籤 Q-learning Sarsa 強化學習简体版

原文原文鏈接

Q-learning Q-learning是基於 T D ( 0 ) TD(0) TD(0)的無模型強化學習算法。其採用的價值函數爲動作價值函數Q(s,a)。主要價值函數迭代公式爲： Q π ( s t , a t ) = Q π ( s t , a t ) + α ( r t + 1 + γ m a x a Q ( s t + 1 , a t + 1 ) − Q ( s t , a ) ) Q

>>阅读原文<<