DRL for Dialogue Generation論文學習零散記錄

Deep Reinforcement Learning for Dialogue Generation 這是一篇將策略梯度(policy gradient)引入Seq2Seq來進行多輪對話的文章。 使用策略梯度從三方面來reward: informativity,coherence, and ease of answering。 作者提到將SEQ2SEQ模型用於dialogue generatio
相關文章
相關標籤/搜索