Deep Reinforcement Learning for Dialogue Generation

Deep Reinforcement Learning for Dialogue Generation 任務好理解,就是生成對話,之前採用最大似然來優化這個問題,會存在以下問題: 生成的最後開始變得毫無意義,作者想利用增強學習來緩解這一點。 有關爲什麼用Policy Gradient不用Q-Learning,作者是這樣解釋的: 按照我對兩種強化學習的理解,q-learning是最大化q值,acti
相關文章
相關標籤/搜索