深入淺出強化學習(3)

策略搜索: 之前降到的其他方法都是通過最優值函數從而得到最優策略。利用這種方法得到的策略往往是狀態空間向有限集動作空間的映射。(每個狀態都有一個值函數,執行策略到下一個狀態的值函數最大,直接argmax_a(值函數)) 策略搜索是將策略進行參數化即 π θ ( s ) \pi_{\theta}\left(s\right) πθ​(s),利用線性或非線性(如神經網絡)對策略進行表示,尋找最優的參數
相關文章
相關標籤/搜索