再次刷新單模型紀錄!快手登頂多模態理解權威榜單VCR

多模態理解領域的權威排行榜紀錄,又被來自國內的技術團隊刷新了。

 

近日,多模態理解領域國際權威榜單 VCR(視覺常識推理,Visual Commonsense Reasoning)刷新了排名,來自國內短視頻平臺快手研究團隊MMU(Multimedia understanding)自研的 VLUA 多模態模型以兩個單項成績「82.三、87.0」和總成績「72.0」的分數登上榜首。 

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

快手自研 VLUA 多模態模型登頂 VCR 榜單。近年來,多模態理解技術在視頻內容社區、電商等領域有着普遍的應用場景,VCR 榜單由華盛頓大學等研究機構於 2018 年發起,基於大規模圖文多模態數據集,旨在將圖像和天然語言理解兩者結合,驗證多模態模型高階認知和常識推理的能力,讓機器擁有「看圖說話」的能力,是多模態理解領域最權威的排行榜之一。VCR 任務設置了問答 (question answering) 和解釋 (rationale) 兩個子任務。具體而言,在問答任務中,給定一張圖片,計算機要回答一個用天然語言描述的和圖片相關的問題;在解釋任務中,計算機將在給出答案的基礎上,給出爲何選擇這個答案的緣由。

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

好比在上圖示例中,第一輪須要選出「person 4 爲何指着 person 1」的答案,第二輪則須要解釋選擇的理由。一直以來,國內外衆多企業和學術機構都圍繞這一領域開展了深刻的研究工做。所以,榜單自發布起成績不斷被刷新,來自百度、騰訊、英特爾、卡內基梅隆大學、加州大學伯克利分校等企業和研究機構都在圍繞榜單作技術探索。

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

如圖所示,分別爲機器眼中的世界、人眼中的世界,以及經過 VLUA 後機器眼中世 界的變化。 快手自研 VLUA,有何過人之處?快手團隊自主研發的 VLUA(Vision and Language Understanding via a Unified Architecture)多模態算法模型採用單流的 transformer 結構,針對視覺特徵和文本特徵輸入的多樣性,設計了統一的多模態特徵處理模塊,構建了圖像背景和前景的信息互補策略,支持局部、全局、淺層、高層等各個維度的特徵抽取。

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

相比目前主流的多模態算法模型,VLUA 設計了自適應的預訓練任務範式單元,不只可以支持多模態混合訓練,也可以支持單模態的獨立訓練。預訓練任務上包含文本預訓練任務、視覺預訓練任務及跨模態對比學習,VLUA 改進了模型的訓練流程,經過隱性地引入表明圖像全局的抽象信息以及多任務學習,使得模型能夠從不一樣視角學習數據的特徵,從而避免模型陷入局部最優解和過擬合。在訓練方式上,VLUA 使用了噪聲對抗學習,進一步提升了模型的魯棒性。 快手研究團隊將基於大規模圖文多模態和單模態數據訓練獲得的 VLUA 預訓練模型在 VCR 數據集上進行遷移學習。現有的 VCR 方法均使用 BUTD 算法提取的前景特徵做爲視覺特徵,除了前景信息,快手的研究者們認爲背景信息對於理解圖片內容也具備相當重要的做用。在實踐中,VLUA 使用網格特徵對圖片的總體信息進行提取,讓模型能夠更好地理解圖片內容。VLUA 經過統一化的輸入特徵及模型架構設計,不只可以支持視覺、文本模態的融合,也支持音頻、用戶行爲等更多跨域的模態特徵融合。除了可以應用在視覺常識推理的任務上,VLUA 在視覺問答,跨模態檢索、caption 生成等任務上都可以快速的遷移及得到效果的提高,最終以「82.3,87.0,72.0」的成績登頂 VCR 榜單。世界紀錄背後,是一支什麼樣的隊伍?VLUA 來自快手的 MMU(Multimedia understanding)團隊。做爲國民級的短視頻社區平臺,快手天天有海量的短視頻上傳、直播開播,MMU 是快手的核心的 AI 技術團隊,使命是經過多模態內容理解技術,讓機器像人類同樣理解視頻內容及用戶生產的各類內容,理解內容後會應用在搜索、推薦、廣告、垂類運營、生態分析、內容安全等多個場景。

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

面向快手生態下內容的規模龐大、多模態、高實時性、形式豐富等多種特色,MMU 在多個技術領域普遍佈局,好比視覺方向,在視頻、直播、圖像的分析和理解、視覺檢索、視頻生成等技術上有成熟應用和投入; 音頻方向,在語音識別 & 合成、音樂理解與生成、音頻前端與分類等技術上達到行業先進水平,同時也有知識圖譜、NLP、智能創做、內容商業價值理解等多種能力,爲實現跨模態內容理解奠基堅實基礎。 目前,VLUA 已應用於快手視頻審覈、推薦、搜索、創做等多個業務場景,可以根據應用場景的不一樣靈活的產出子模型及不一樣維度的多模態特徵。
  • 在視頻審覈業務中,基於 VLUA 產出的視頻內容質量理解模型將視頻內容質量進行分層,精確的識別了劣質視頻和優質視頻,極大了提高了視頻審覈的效率和社區內優質內容的供給;前端

  • 在視頻推薦業務中,以冷啓動場景爲例,基於 VLUA 產出的多模態內容理解特徵,大幅提高了冷啓動的效率,幫助更多的優質內容及優質做者在社區內得到更好的成長;算法

  • 在視頻搜索場景,經過 VLUA 提供的視覺文本對齊的多模態特徵,大幅提高了搜索召回的相關性;跨域

  • 在視頻創做方面,經過 VLUA 對視頻多模態信息實現高層次的理解,爲智能創做過程提供更加精準的素材檢索能力,提高生成內容的流暢性及可讀性。例如在直播場景,定位直播中的精彩片斷,混剪造成有趣、高密度的短視頻;在商業化場景,經過分析廣告主廣告素材或者挖掘站內優質素材,混剪造成新的創意廣告,豐富廣告數量。安全

據統計,MMU 團隊有數百名算法工程師,博士佔比 15%,碩士及以上佔比 95%,擁有人工智能領域專利 394 件,每一年發表論文數十篇。若是你也但願和這些業內頂尖的技術人才共事,而且嚮往簡單、開放、追求卓越的技術氛圍,歡迎加入快手 MMU團隊,成爲人工智能領域的探索者和先行者。

招聘郵箱:zhangyelingmei@kuaishou.com架構

推薦閱讀

重磅!DLer-計算機視覺&Transformer羣已成立!

 

你們好,這是計算機視覺&Transformer論文分享羣裏,羣裏會第一時間發佈最新的Transformer前沿論文解讀及交流分享會,主要設計方向有:圖像分類、Transformer、目標檢測、目標跟蹤、點雲與語義分割、GAN、超分辨率、視頻超分、人臉檢測與識別、動做行爲與時空運動、模型壓縮和量化剪枝、遷移學習、人體姿態估計等內容。

相關文章
相關標籤/搜索