5.Q-learning

目錄 深度強化學習目錄 簡介 上篇文章裏講了MC算法和TD算法,不過用的是V值函數,這回我們學習Q函數。在貝爾曼方程那一篇文章裏我們說過,Q函數可以表示成最優Bellman等式的形式,且最優的Q等價於最優的策略 π ⋆ \pi^\star π⋆,又策略 π \pi π一定可以收斂到最優策略 π ′ \pi' π′,Q-learning就是基於這些思想來實現的。 實現運用到的技術 前面講到了,Q-l
相關文章
相關標籤/搜索