百度PLATO-2 摘取DSTC9國際對話技術競賽4項桂冠

點擊關注上方「AI深度學習視線」，並「星標」公號git

來源：百度NLPgithub

全球人工智能學術競賽DSTC是對話系統技術領域的頂級賽事。2020年度第九屆國際對話技術競賽 DSTC9共設有4個賽道（Track-1～Track-4），主辦方包括Facebook、亞馬遜、微軟、卡內基梅隆大學、清華大學等，參與者普遍覆蓋了企業和高校的參賽團隊。近期DSTC9官方陸續公佈各個賽道排名。數據庫

百度參與了DSTC9前3個賽道中4項任務的角逐，並在最終的榜單中拔得頭名，成績使人矚目。這些賽道全面涵蓋了開放域閒聊、知識對話、任務型對話等關鍵問題。據悉，百度在這些任務中所使用的核心技術，均基於其最近開源的開放域對話模型PLATO-2。微信

PLATO-2 是基於隱空間技術的大規模開放域對話模型，參數規模高達16億，可就開放域話題深度暢聊，在中英文效果上，已全面超越Google Meena、Facebook Blender、微軟小冰等先進模型。網絡

PLATO-2採用了課程學習進行訓練，其過程包括兩個階段：第一階段，基於簡化的「一對一」映射，訓練獲得基礎的回覆生成模型；第二階段包含生成-評估兩個模型，針對開放域對話的「一對多」問題，經過引入離散隱變量進行建模，訓練獲得更高質量的回覆生成模型，同時訓練評估模型，從多個候選中選擇出最合適的回覆。框架

這種框架具備很強的通用能力，在預訓練各個階段所得到的模型可普遍支持多種類型的對話系統。此次DSTC9的比賽結果就充分展現了PLATO-2在對話領域強大的通用能力。dom

接下來，咱們一塊兒瞭解DSTC9中的4個任務以及基於PLATO-2的解決方案。編輯器

Track-1: Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Access模塊化

經典的任務型對話系統在回覆用戶時，依賴於查詢結構化的數據庫信息，可是在實際應用場景下，用戶詢問的問題會不少樣，數據庫經常缺少相關信息。相比之下，非結構化知識信息，像FAQ等涵蓋的範圍更廣，能夠輔助系統回覆用戶。針對這個問題，該賽道共設置了3個級聯的子任務：性能

判斷當前對話上文是否須要使用外部非結構化的知識；
選取跟當前對話上文最匹配的 k 條非結構化知識；
根據選取的非結構化知識，進行系統回覆生成。

參賽的系統須要完成3個級聯的子任務，百度在最終的人工評估中，排名第一。在該賽道中，百度基於預訓練模型進一步訓練了前兩個子任務的分類和排序模型，從而實現精準的知識選擇，並得以輔助PLATO-2模型生成知識加強的回覆。

以下圖示例，系統根據對話上文，從大規模知識庫中選出合適的知識，併合理的利用知識生成了高質量的回覆，從該實例中能夠看出，PLATO-2模型已經具有了必定的推理能力。

該賽道的人工評估綜合考慮了回覆中知識的準確度以及回覆與上文的合適度，除了參賽系統，測試集人工標註的ground-truth也一塊兒參與了評估。

結果顯示，百度取得了4.39的分數，排名第一，跟人工標註結果僅有0.13的細微差距。這一結果代表，在此類極具挑戰性的任務型對話場景下，模型可以以相對低廉的成本、較快的響應速度，爲用戶提供高質量的回覆。

Track-2: Multi-domain Task-oriented Dialog Challenge II

和Track-1 相似，Track-2也是面向任務型的對話系統，但沒有使用額外的非結構化知識。傳統的任務型對話系統大可能是模塊化的，各個模塊NLU、DST、Policy、NLG獨立建模，且整個流程中涉及較多的人工干預。最新的技術開始探索端到端的任務型對話系統，模型可根據對話上文直接生成回覆。該賽道共有2個獨立的子任務：

Task 1: End-to-end Multi-domain Task Completion Dialog

Task 2: Cross-lingual Multi-domain Dialog State Tracking

百度參與了子任務1，並在最終的人工評估中，與另一個團隊並列第一。基於PLATO-2第一階段模型，百度在該跨領域任務對話上進行了Fine-tuning，模型能夠端到端地生成對話狀態、對話動做以及高質回覆。

子任務1評估中，考慮了寬鬆和嚴格2種場景下的任務成功率：對於寬鬆評估（Success Rate w/o DB Grounding），衆包人員跟系統交互，而後標註任務是否成功，該過程當中不會審覈系統的回覆是否跟數據庫信息衝突；對於嚴格評估（Success Rate w/ DB Grounding），針對衆包人員標註任務成功的對話，會進一步審覈系統回覆是否跟數據庫信息匹配，只有2個條件都知足纔算任務成功。

寬鬆評估的區分度相對較弱，排名在前幾位的方法差距較小；而嚴格評估則具備較強的區分度，且更能反映真實場景的性能，百度在該指標下排名第一，顯著超越了其餘系統。最終的榜單爲寬鬆和嚴格評估的均值，百度和另一個團隊並列第一。

Track-3: Interactive Evaluation of Dialog

相比於前兩個賽道，Track 3更接近開放域對話問題。它的特色是對於聊天的範圍不設限制，也沒有明確目標，以能和人類進行自由、有趣的交流爲目的。

對於開放域對話，經常使用的評估方式有2種：靜態評估以及交互評估。該賽道共有2個子任務，分別涉及知識對話的靜態評估和開放域閒聊的人機交互評估：

Task 1: Static Evaluation of Dialog

Task 2: Interactive Evaluation of Dialog

在子任務1中，系統須要圍繞話題進行回覆生成，經過自動的選取知識和生成回覆，能夠跟用戶就給定話題進行深刻探討。在子任務1的榜單中，百度PLATO-2模型排名第一。

在子任務1中，系統須要針對給定的對話上文產出回覆。在評估中，衆包人員會從流暢性、相關性、準確度、參與度等8個方面對回覆進行打分，並給出總體得分。榜單上，有3組模型的結果比較接近，最終並列頭名，據悉前2組結果爲百度提交的不一樣參數設置下的PLATO-2模型。由於PLATO-2已經開源，其餘團隊也有使用PLATO-2進行再訓練提交結果。

在子任務2中，用戶能夠就職何話題進行聊天，系統須要精準理解用戶，併產生連貫、有趣且有信息量的回覆，這是當前對話技術最具挑戰性的方向。在子任務2交互評估的榜單中，百度再次排名第一。

在子任務2中，互聯網上的真實用戶被邀請與機器人進行閒聊，且對話的內容和方向不設限制，以反映真實應用場景下對話系統的效果。收集到的人機交互對話會分發給衆包人員進行評估，評估指標包括邏輯一致性、回覆多樣性、話題深度等10個方面，綜合考量後給出總體得分。該子任務致力於評估開放域的人機交互效果，而這偏偏是PLATO-2的擅長之處。最終結果顯示，該榜單前2名均被百度包攬，其中百度開源的PLATO-2模型排名第一。

在人機交互對話收集時，用戶會被提早告知對方是機器人，由於PLATO-2表現比較優異，不少用戶不由詢問系統究竟是人類，仍是機器人？不能否認，當前的對話系統在一些方面較人類水平尚有差距，但這些真實的人機交互記錄顯示，人工智能又朝着突破圖靈測試邁進了堅實的一步。隨着技術不斷演進，智能對話將來的能力愈加值得期待。

據悉，百度PLATO和PLATO-2均徹底基於百度自主研發的飛槳深度學習平臺。PLATO-2在訓練過程當中，利用了飛槳Fleet庫的並行能力，使用了包括Recompute、混合精度訓練等策略，基於高性能GPU集羣進行訓練。隨着愈來愈多的AI能力的開放，百度飛槳也正在打造更加完整和成熟的技術生態。

開源連接：

https://github.com/PaddlePaddle/Knover

文章連接：

https://arxiv.org/abs/2006.16779

比賽地址：

https://sites.google.com/dstc.community/dstc9/tracks

百度PLATO-2 摘取DSTC9國際對話技術競賽4項桂冠

推薦閱讀