Deep Reinforcement Learning for Dialogue Generation閱讀筆記

文章亮點 本文是使用深度增強學習DRL的方法來解決多輪對話問題。首先使用Seq-to-Seq模型預訓練一個基礎模型,然後根據作者提出的三種Reward來計算每次生成的對話的好壞,並使用policy network的方法提升對話響應的多樣性、連貫性和對話輪次。文章最大的亮點就在於定義了三種reward(Ease of answering、Information Flow、Semantic Coher
相關文章
相關標籤/搜索