Deep Reinforcement Learning for Dialogue Generation-關於生成對話的深度強化學習

時間 2020-12-29

原文原文鏈接

摘要：生成對話的最新神經模型爲對話代理提供了很好的前景，但這往往是短視的、每次只預測一句話語從而忽視了它們對之後輸出的影響。模擬對話的未來方向的關鍵在於生成連續、有趣的對話，導致對話的傳統NLP模型去借鑑強化學習的需求。在本文中，我們展示如何去整合這些目標，在聊天機器人對話中使用深度強化學習去建模未來的反饋。該模型模擬兩個虛擬代理之間的對話，使用策略梯度算法去懲罰序列，該序列展示三個有用的對話

>>阅读原文<<