強化學習：Policy-based方法Part2

時間 2021-01-16

原文原文鏈接

在Part1部分，我們學習了什麼是策略梯度，以及該算法的優勢與劣勢，在Part2部分，我們將學習到如何通過策略搜索實現策略函數的迭代優化。目前，我們已經知道了基於策略的方法具有求解穩定、搜索效果好、以及始終保持一定的隨機探索機率等優勢。在本節，將首先從數學角度對相關理論知識給出解答，並給出基於TensorFlow的實現過程。【策略搜索】我們已經知道策略π是一個參數化函數，其結果是可以輸出動作

>>阅读原文<<