在大量而真實的數據基礎上,百度的深度學習框架PaddlePaddle部門聯合科賽上線了一系列基於前沿真實問題的賽題,最早發佈和完成的是聚焦於綜藝領域的智能視頻剪輯AI大賽。算法
上月,該賽事已順利收官。比賽採用了科賽自有的在線數據分析工具K-Lab,在K-Lab中可直接調用PaddlePaddle深度學習框架,並在線掛載BROAD數據集。賽事將K-Lab搭載在百度雲CPU/GPU上,選手可直接提交模型結果到評測系統,即得模型分數。至賽事結束之時,共281支隊伍合計496人報名,總提交數高達909次。瀏覽器
此次上線的NLP智能問答賽事則要挑戰人工智能領域裏的難題——閱讀理解。網絡
目前世界上已有很多關於NLP的經典賽題,如斯坦福大學發起的SQuAD挑戰賽、微軟的MS Marco挑戰賽、Google DeepMind閱讀理解公開數據測試集、Facebook閱讀理解公開數據測試集。這些多爲英文數據集,且部分基於詞義識別(spanof words)或文字標籤分類。而經過機器學習實現真正閱讀理解,難度遠高於詞義精準識別和搜索結果調用,一方面須要經過算法對語意進行全方面的分析理解,另外一方面也須要引入優質的數據集配合訓練。框架
BROAD中包含着迄今爲止規模最大的中文公開領域閱讀理解數據集,DuReader。該數據集基於真實應用需求,全部問題均來源於百度搜索用戶的真實問題,文檔來自全網真實採樣的網頁文檔和百度知道 UGC 文檔,答案基於問題與文檔由人工撰寫生成。機器學習
本次PaddlePaddle AI系列賽事-智能問答賽事會爲選手提供百度雲CPU與GPU計算資源,選手須要根據數據創建基於文本與問題,輸出正確答案的模型,考驗模型的概括總結與改述能力。經過提供對人工智能回答實際問題的模型訓練,未來可能出現不用打開網頁,無需手動篩選答案,便可覺得用戶提供全套解決方案的應用,可以代替市面上大部分人工智能助手,也能節省大量的時間。分佈式
賽事基於百度深度學習平臺PaddlePaddle進行。PaddlePaddle是大規模並行分佈式深度學習框架,是目前全球開發熱度(用 Github pull request 數量衡量)增速最高的開源深度學習平臺。現已集成了CNN、RNN等多種神經網絡及深度學習算法,同時支持CPU、GPU、FPGA等多款硬件,並與Kubernetes合做了PaddlePaddle EDL彈性深度學習,成爲全球首個支持彈性做業調度的開源AI雲解決方案。PaddlePaddle易學易用、高效靈活,支持海量圖像識別分類、機器翻譯和自動駕駛等多個領域的業務需求。工具
去年百度世界大會上,PaddlePaddle 發佈了三項新功能,進一步增強了易用性,並下降了開發者的使用門檻:性能
PaddlePaddleFluid 提供高級語言中的 while 和 if 等控制流結構,提高使用者的開發效率,同時利用編譯優化技術保證計算性能。學習
PaddlePaddleCloud 支持使用者在瀏覽器裏開發 AI 應用,在雲端調試運行,開發者不須要在我的電腦和機羣之間切換,提高了工做效率。測試
PaddlePaddleEDL 是全球首個支持彈性做業調度的開源 AI 雲解決方案,經過與 Kubernetes 合做實現彈性做業調度。
在線數據分析平臺K-Lab爲本次賽事提供全程支持。K-Lab不只封裝了包含PaddlePaddle等近百個AI開發經常使用工具,同時可直接調用百度雲算力。
NLP智能問答大賽即日上線,對於閱讀理解領域感興趣的研究者及高校學生,咱們歡迎和期盼你的參與,點擊閱讀原文報名,一塊兒來挑戰NLP-人工通用智能吧!
看到這裏 不妨關注小科 期待更多挑戰
科賽Kesci.com是聚合數據人才和行業問題的在線社區。科賽打造的K-Lab在線數據分析協做平臺,爲數據工做者的學習與工做帶來全新的體驗。