2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

今天接着上一講,繼續講value functions相關的內容 先回顧Q-learning。上一講講到 Qϕ Q ϕ 除了tabular的情形之外,用任何function approximator(比如NN),那麼算法的收斂性就無法得到保證。但本講主要講,怎麼在實際中,讓算法以較大的概率收斂。 兩個問題,一個是correlation,另一個是not gradient descent! correl
相關文章
相關標籤/搜索