強化學習:Policy-based方法Part2

在Part1部分,我們學習了什麼是策略梯度,以及該算法的優勢與劣勢,在Part2部分,我們將學習到如何通過策略搜索實現策略函數的迭代優化。 目前,我們已經知道了基於策略的方法具有求解穩定、搜索效果好、以及始終保持一定的隨機探索機率等優勢。在本節,將首先從數學角度對相關理論知識給出解答,並給出基於TensorFlow的實現過程。 【策略搜索】 我們已經知道策略π是一個參數化函數,其結果是可以輸出動作
相關文章
相關標籤/搜索