對話系統論文集（10）-改進A3C算法

時間 2021-01-15

原文原文鏈接

問題： RL早期的時候表現不好，特別是在online訓練的早期。背景： Bayesian sample-efficient已經提出， value-based和policy-based方法區別： policy更容易收斂，因爲value改一點點可能造成policy空間的大大變化。policy因爲*基於蒙特卡洛預測（？），*很容易收斂到次優解。本文使用policy。介紹基礎的actor-critic

>>阅读原文<<