關於「強化學習策略梯度方法方差大的原因與解決方法」問題的思考

時間 2021-01-12

原文原文鏈接

目錄 1 閱前需知 2 爲什麼方差大？ 3 如何解決方差大問題？ 3.1 Add a baseline 3.2 TD 代替 MC (即Actor-Critic方法) 1 閱前需知策略梯度方法(Policy-Based)方法直接學習參數化的策略來進行動作的選擇。本文所用符號的習慣與下書一致此書中將