2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

時間 2021-01-15

標籤 cs294 简体版

原文原文鏈接

今天接着上一講，繼續講value functions相關的內容先回顧Q-learning。上一講講到 Qϕ Q ϕ 除了tabular的情形之外，用任何function approximator（比如NN），那麼算法的收斂性就無法得到保證。但本講主要講，怎麼在實際中，讓算法以較大的概率收斂。兩個問題，一個是correlation，另一個是not gradient descent！ correl

>>阅读原文<<