對話系統論文集(10)-改進A3C算法

問題: RL早期的時候表現不好,特別是在online訓練的早期。 背景: Bayesian sample-efficient已經提出, value-based和policy-based方法區別: policy更容易收斂,因爲value改一點點可能造成policy空間的大大變化。policy因爲*基於蒙特卡洛預測(?),*很容易收斂到次優解。本文使用policy。 介紹基礎的actor-critic
相關文章
相關標籤/搜索