清華ACL2020長文|KdConv：多領域知識驅動的中文多輪對話數據集

　　ACL 2020原定於2020年7月5日至10日在美國華盛頓西雅圖舉行，但因新冠肺炎疫情改成線上會議。ACL 2020共收到3429個投稿，是計算語言學領域首個投稿量超過3000的會議。4月3日，ACL 2020 正式公佈錄用論文。git

　　清華大學人工智能研究院交互智能（CoAI）小組有三篇長文和一篇demo論文被ACL錄用，兩篇文章被TACL錄用並將在ACL 2020展現。本文爲其中 long papers 之一。github

　　做者 | 周昊性能

　　編輯 | 賈偉學習

　　論文連接：https://arxiv.org/abs/2004.04100
網站

　　數據和代碼地址：https://github.com/thu-coai/KdConv人工智能

　　因爲包含知識標註的多輪對話數據集的缺少，知識驅動對話系統的研究在很大程度上受到了限制。blog

　　爲了進一步推進多領域的知識驅動的多輪對話研究而且彌補中文語料的缺少，咱們提出了一箇中文的多領域的知識驅動的對話數據集KdConv (Knowledge-driven Conversation)，其使用知識圖譜爲多輪對話中使用的知識進行標註。it

　　咱們的語料庫包含了來自三個領域（電影、音樂和旅遊）的4.5K個對話，86K個句子，平均輪數爲19.0。這些對話包含了相關話題的深度討論，以及多個話題之間的天然過渡。io

　　爲了方便在這個數據集上的研究工做，咱們提供了幾個生成式和檢索式的基線對話模型。實驗結果顯示，這些模型能夠經過引入背景知識來加強模型的性能，然而利用知識進行多輪對話建模仍有很大的提高空間，有待進一步研究。class

　　結果還顯示，對話模型在不一樣領域之間的性能差別明顯，說明遷移學習和領域轉換方面的工做值得進一步研究。論文已被ACL2020 會議接收，KdConv數據集和基線模型將會公開供學術研究使用。

　　KdConv的一個對話樣例，下劃線的文本是在對話中使用的相關知識。

　　相比於以前的知識驅動的對話數據集，KdConv有三大特色：

　　一、標註信息精細。KdConv 除了提供對話相關的知識圖譜信息外，還爲數據集中每一句對話標註了其相關的知識三元組信息，這種句子級的知識標註能夠爲知識驅動的對話生成任務提供細緻的監督信號，並且能夠在對話歷史中進行知識規劃的建模。

　　二、知識交互全面。KdConv 提供了包含結構化的知識圖譜以及非結構化的長文本做爲背景知識的全面的知識來源，同時因爲在構造對話的過程當中，沒有指定任何目標約束，使得對話中的知識交互方式包含問答、討論、遷移等全面的交互方式。

　　三、領域覆蓋多樣。KdConv 提供了包含電影、音樂和旅遊三種領域的知識驅動的對話數據，結果顯示，對話模型在不一樣領域之間的性能差別明顯，說明遷移學習和領域轉換方面的工做值得進一步研究。

　　數據收集過程

　　收集數據時模擬的對話場景是兩名用戶討論某一個領域的話題，經過對話的形式豐富雙方的知識，具體包含如下兩個步驟：

　　一、知識圖譜構建

　　因爲知識圖譜的稀疏性和龐大的數據規模難以處理，咱們經過從幾個領域相關的網站上抓取最受歡迎的電影和電影明星、音樂和歌手、景點做爲起始實體，縮小了特定領域知識的範圍。

　　過濾掉知識三元組較少的起始實體後，電影/音樂/旅遊領域分別包含559/421/476個起始實體。給定起始實體做爲種子，咱們從XLORE（一個大規模的英漢雙語知識圖譜）中檢索出它們的鄰居實體。咱們將起始實體和這些檢索到的實體和關係合併成特定領域知識圖譜。構建KdConv時使用的知識圖譜的統計結果見下表。

　　知識圖譜統計信息

　　二、對話數據收集

　　咱們經過衆包的方式招募標註者來生成與特定領域知識圖譜相關的多輪對話。在對話過程當中，沒有任何預設目標或約束，兩個對話者均可以訪問知識圖譜。

　　容許兩個參與者訪問知識，在咱們的語料庫中，雙方能夠動態地改變角色，做爲領導者或跟隨者，這對人類對話來講更天然、更真實。

　　除了製做對話語料以外，若是標註者根據某些語料庫生成的語料，還要求標註者記錄相關的知識三元組。爲了保證生成的對話的天然性，咱們過濾掉了低質量的對話，其中包含語法錯誤、知識事實的不一致等低質量的對話。

　　數據統計

　　KdConv 數據集相關的知識圖譜與對話的數據統計信息以下表所示。

　　KdConv 數據集統計信息

　　基線模型

　　因爲精細的標註信息，全面的知識交互，多樣的領域覆蓋， KdConv數據集可用於多種對話任務的研究。

　　咱們提供了基於檢索式和生成式的基線對話模型性能，實驗結果顯示，這些模型能夠經過引入背景知識來加強模型的性能，然而利用知識進行多輪對話建模仍有很大的提高空間，有待進一步研究。

　　結果還顯示，對話模型在不一樣領域之間的性能差別明顯，說明遷移學習和領域轉換方面的工做值得進一步研究。

　　自動評價指標。生成模型和檢索模型的最佳結果分別用黑體和下劃線表示。"+know "指的是引入知識圖譜的模型。