【論文翻譯】2020.8 清華大學AI課題組——大型中文短文本對話數據集（A Large-Scale Chinese Short-Text Conversation Dataset）

時間 2021-01-13

原文原文鏈接

大型中文短文本對話數據集寫在前面：研究用，原創翻譯，轉載請標明出處；第一次譯文，之後會跟進完善。摘要生成式對話的神經網絡模型在建立短文本對話模型方向上取得了可喜的結果。然而，通過訓練得到這樣的模型通常需要大規模高質量的對話語料，而這種語料是很難獲取的。在本文中，我們提供了大規模已清洗中文對話數據集LCCC，其中包含了基礎版本（680萬條語料）和大規模版本（共1200萬條語料）。我們使用一