DRL for Dialogue Generation論文學習零散記錄

時間 2021-01-02

原文原文鏈接

Deep Reinforcement Learning for Dialogue Generation 這是一篇將策略梯度（policy gradient）引入Seq2Seq來進行多輪對話的文章。使用策略梯度從三方面來reward: informativity,coherence, and ease of answering。作者提到將SEQ2SEQ模型用於dialogue generatio

>>阅读原文<<