2020語言與智能技術競賽啓動，百度提供最大規模中文數據集

時間 2020-03-20

標籤語言智能技術競賽啓動百度提供最大規模中文數據简体版

原文原文鏈接

語言是傳遞人類信息最重要的媒介，讓機器理解語言並使用語言進行交互是實現通用人工智能的重要挑戰。3月10日，2020語言與智能技術競賽正式啓動，面向全球開發者開啓報名通道。算法

本屆競賽由中國中文信息學會（CIPS）和中國計算機學會（CCF）聯合主辦，百度公司、中國中文信息學會評測工做委員會和中國計算機學會中文信息技術專委會聯合承辦，並將在第五屆「語言與智能高峯論壇」舉辦技術交流和頒獎，獲勝團隊將分享總額35萬人民幣的獎金。屆時，國內外學術界、工業界知名專家學者，也將面向社會公衆介紹國內外語言與智能及相關領域的發展趨勢和創新成果。數據庫

本次競賽共設立五個任務，包括機器閱讀理解、面向推薦的對話、語義解析、關係抽取和事件抽取，涉及到語言理解、人機對話、知識抽取等複雜技術。研究上述任務對於智能搜索、智能推薦、智能交互等人工智能應用具備重要意義，是天然語言處理和人工智能領域的重要前沿課題。編程

本次競賽的五個任務都將提供百度大規模中文數據集，爲研究者提供學術交流平臺，推進語言理解、人工智能領域技術研究和應用的發展。框架

01 三大經典任務全面升級，覆蓋更多真實應用場景編程語言

本次競賽中，機器閱讀理解、面向推薦的對話、關係抽取三大經典任務在2019年的基礎上作了全面升級。機器閱讀理解是指讓機器閱讀文本，而後回答和閱讀內容相關的問題。與2019年相比，今年的閱讀理解任務，將重點關注閱讀理解模型在真實應用場景中的魯棒性。所以，在本次競賽中特別構建了 DuReader_robust 數據集，用於考察模型在多個維度上的魯棒性，包括模型的過敏感性、過穩定性以及泛化能力。數據集中的樣本均來自於實際的應用場景，難度大、考察點豐富，覆蓋了真實應用中諸多難以解決的問題。面向推薦的對話則是指集成對話系統和推薦系統的人機交互系統，該系統先經過問答或閒聊等形式收集用戶興趣和偏好，而後主動給用戶推薦其感興趣的內容。真實世界的人機交互會同時涉及到多種類型的對話，如何天然的融合多類型對話是一個重要的挑戰。性能

爲了應對這個挑戰，本次競賽將提出一個新的任務——多類型對話中的面向推薦的對話。指望系統可以主動且天然地將對話從非推薦對話引導到推薦對話，而後基於收集到的用戶興趣及用戶實時反饋，經過屢次交互完成最終的推薦目標。同時，任務還將提供多種對話類型、多個領域、融合用戶 profile 信息的對話邏輯數據集，貼近真實的應用場景。關係抽取是指從天然語言文本中抽取實體及其之間的關係。本次競賽在去年信息抽取任務的基礎上進行了兩處升級：學習

在簡單 SPO 關係的基礎上增長了複雜關係類型，用以刻畫現實世界中普遍存在的複雜關係；
引入百度貼吧口語化表達語料，其文本語義自由度更高，更貼近平常口語表達習慣，使關係抽取評測任務具備更大的挑戰性和實戰應用價值。

02 新增兩大熱門任務，爲參賽者帶來全新挑戰 測試

與往年競賽不一樣，除沿襲機器閱讀理解、面向推薦的對話、關係抽取三大任務外，還特別新增了語義解析與事件抽取兩大熱門任務。語義解析任務旨在讓機器能自動將用戶輸入的天然語言問題轉成可與數據庫操做的編程語言（如SQL），以下降結構化數據使用的門檻和成本，同時提高結構化數據使用的價值和效率。人工智能

當前的中文 Text-to-SQL 數據集的數據庫基本都是由單表構成的，問題模式比較簡單，僅覆蓋實際應用中存在的部分問題。本次競賽將首次發佈 DuSQL 數據集，包含164個領域的200個數據庫，覆蓋了匹配、計算、推理等實際應用中常見的問題形式，每一個問題關聯一個數據庫中一或多張表格。該數據集更貼近真實應用場景，對模型解決領域無關性、問題無關性、計算推理問題的能力提出了更高的挑戰。事件抽取一直受到學術界和工業界的普遍關注，具備重要的實用價值，也極具挑戰。這次競賽中，該任務目標是經過給定目標事件類型和角色類型集合及句子，識別句子中全部目標事件類型的事件，並根據論元角色集合抽取事件所對應的論元。針對事件抽取任務，百度將對外發布當前業界最大規模的中文事件抽取數據集，其中包含65個事件類型和1.7萬個具備事件信息的句子。但願經過這次競賽及開放的大規模中文數據集，助力事件抽取技術的進一步發展。spa

03 百度飛槳火力全開，爲參賽選手提供全面支持

做爲本次競賽的承辦方，百度還將爲參賽選手提供全面的技術資源及平臺支持。本次比賽中，百度將爲五大競賽任務提供基於飛槳 PaddlePaddle 基線系統，助力選手快速熟悉比賽環境。做爲開源開放、功能完備的產業級深度學習平臺，飛槳具有開發便捷的核心框架、支持超大規模深度學習模型訓練、多端多平臺部署的高性能推理引擎和產業級開源模型庫等領先技術，鼓勵你們使用飛槳完成模型的設計、訓練和預測。不只如此，百度大腦AI Studio也將爲本次比賽提供軟硬件環境的支持。AI Studio 是基於飛槳平臺的一站式 AI 開發實訓平臺，爲參賽團隊提供在線編程環境、Tesla V100 免費 GPU 算力、海量開源算法和數據。選手登陸 AI Studio 便可得到算力，天天登陸 AI Studio 並運行 Notebook 便可得到12小時算力，連續登陸5天額外領取48小時算力。AI Studio 宣佈將爲報名參加2020語言與智能技術比賽的參賽團隊額外提供免費 GPU 算力時長，完全破除算力桎梏，助力選手取得優異成績。

2020語言與智能技術競賽已於2020年3月10日正式啓動競賽報名，並開放競賽平臺，發放樣例數據，並於3月31日對報名者發放所有訓練數據和第一批測試數據。

競賽的每一個任務都將分別評出一等獎1名，二等獎1名，三等獎1名和優勝獎2名，主辦方中國中文信息學會（CIPS）和中國計算機學會（CCF）將爲獲獎者提供榮譽證書認證。同時，百度公司將爲獲獎者提供獎金和參會旅行贊助。

更多競賽信息及報名入口，可點擊「閱讀原文」或搜索「2020語言與智能技術競賽官網」進入各任務詳情頁查看詳細內容及報名比賽。

2020語言與智能技術競賽官網：/lic2020.cipsc.org.cn

>> 訪問 PaddlePaddle 官網，瞭解更多相關內容。