PR10.21:Trust Region Policy Optimization

時間 2021-01-15

原文原文鏈接

What’s problem? 根據策略梯度方法，參數更新方程式爲： θnew=θold+α▽θJ 策略梯度算法的硬傷就在更新步長 α ，當步長不合適時，更新的參數所對應的策略是一個更不好的策略，當利用這個更不好的策略進行採樣學習時，再次更新的參數會更差，因此很容易導致越學越差，最後崩潰。所以，合適的步長對於強化學習非常關鍵。所謂合適的步長是指當策略更新後，回報函數的值不能更差。如何選擇這個步長