PR10.21:Trust Region Policy Optimization

What’s problem? 根據策略梯度方法,參數更新方程式爲: θnew=θold+α▽θJ 策略梯度算法的硬傷就在更新步長 α ,當步長不合適時,更新的參數所對應的策略是一個更不好的策略,當利用這個更不好的策略進行採樣學習時,再次更新的參數會更差,因此很容易導致越學越差,最後崩潰。所以,合適的步長對於強化學習非常關鍵。 所謂合適的步長是指當策略更新後,回報函數的值不能更差。如何選擇這個步長
相關文章
相關標籤/搜索