強化學習(二):Policy Gradient理解

上一章已經介紹了基於值函數方法的簡單的DQN的理解,而在深度強化學習領域另一種基於端到端思路的策略梯度(Policy Gradient)算法相較而言可能取得更好的結果,也更加方便理解。於是,本章我們就從有監督學習和強化學習的區別開始講起,探討策略梯度思想指導下的強化學習理念的簡單理解。 在之前的章節:強化學習(一):簡單的DQN理解中,我們已經瞭解到使用值函數的方法進行強化學習的本質是需要通過獎勵
相關文章
相關標籤/搜索