Deep Reinforcement Learning for Dialogue Generation-關於生成對話的深度強化學習

  摘要:生成對話的最新神經模型爲對話代理提供了很好的前景,但這往往是短視的、每次只預測一句話語從而忽視了它們對之後輸出的影響。模擬對話的未來方向的關鍵在於生成連續、有趣的對話,導致對話的傳統NLP模型去借鑑強化學習的需求。在本文中,我們展示如何去整合這些目標,在聊天機器人對話中使用深度強化學習去建模未來的反饋。該模型模擬兩個虛擬代理之間的對話,使用策略梯度算法去懲罰序列,該序列展示三個有用的對話
相關文章
相關標籤/搜索