Q-learning和Sarsa

Q-learning Q-learning是基於 T D ( 0 ) TD(0) TD(0)的無模型強化學習算法。其採用的價值函數爲動作價值函數Q(s,a)。 主要價值函數迭代公式爲: Q π ( s t , a t ) = Q π ( s t , a t ) + α ( r t + 1 + γ m a x a Q ( s t + 1 , a t + 1 ) − Q ( s t , a ) ) Q
相關文章
相關標籤/搜索