深入淺出強化學習（3）

時間 2020-12-25

原文原文鏈接

策略搜索：之前降到的其他方法都是通過最優值函數從而得到最優策略。利用這種方法得到的策略往往是狀態空間向有限集動作空間的映射。（每個狀態都有一個值函數，執行策略到下一個狀態的值函數最大，直接argmax_a(值函數)）策略搜索是將策略進行參數化即 π θ ( s ) \pi_{\theta}\left(s\right) πθ(s)，利用線性或非線性（如神經網絡）對策略進行表示，尋找最優的參數

>>阅读原文<<