關於「強化學習 策略梯度方法 方差大 的原因與解決方法」問題的思考

目錄 1 閱前需知 2 爲什麼方差大? 3 如何解決方差大問題? 3.1 Add a baseline 3.2 TD 代替 MC (即Actor-Critic方法) 1 閱前需知 策略梯度方法(Policy-Based)方法直接學習參數化的策略來進行動作的選擇。本文所用符號的習慣與下書一致                                                   此書中將
相關文章
相關標籤/搜索