Deep Reinforcement Learning for Dialogue Generation

時間 2020-12-24

標籤論文閱讀 NLP 简体版

原文原文鏈接

Deep Reinforcement Learning for Dialogue Generation 任務好理解，就是生成對話，之前採用最大似然來優化這個問題，會存在以下問題：生成的最後開始變得毫無意義，作者想利用增強學習來緩解這一點。有關爲什麼用Policy Gradient不用Q-Learning，作者是這樣解釋的：按照我對兩種強化學習的理解，q-learning是最大化q值，acti

>>阅读原文<<