5.Q-learning

時間 2021-07-13

原文原文鏈接

目錄深度強化學習目錄簡介上篇文章裏講了MC算法和TD算法，不過用的是V值函數，這回我們學習Q函數。在貝爾曼方程那一篇文章裏我們說過，Q函數可以表示成最優Bellman等式的形式，且最優的Q等價於最優的策略 π ⋆ \pi^\star π⋆，又策略 π \pi π一定可以收斂到最優策略 π ′ \pi' π′，Q-learning就是基於這些思想來實現的。實現運用到的技術前面講到了，Q-l

>>阅读原文<<