在剛剛落下帷幕的計算機視覺與模式識別領域頂級會議 CVPR 2021 上,各項國際挑戰賽的競賽結果已所有揭曉。
阿里巴巴淘系技術多媒體算法&視頻內容理解算法團隊,一舉斬獲html
🎉 3 項國際冠軍 🎉
🎉 1 項國際亞軍 🎉
🎉 1 項國際季軍 🎉web
技術域包括圖像描述生成、大規模實例級物體識別、多模態視頻情感理解以及視頻人物交互關係。算法
做爲業界多媒體算法相關領域的領先團隊,淘系技術的這支隊伍着眼打造「端雲一體、跨模態理解」的視頻內容感知與理解算法平臺;重點構建AR直播、3D數字場、內容智能生產、審覈、檢索和高層語義理解等技術領域;支持着淘寶直播、逛逛、點淘等淘系內容業務,經過自研的內容中臺爲整個阿里集團的內容業務提供能力支持。網絡
如下是本次3項國際冠軍的競賽內容詳情&咱們的攻克方法。ide
Workshop:CVPR 2021 VizWiz Grand Challenge Workshop
TRACK:Image Captioning性能
宏黎,宏吉,詠亮,玉琦,少麟,定人google
圖像描述生成spa
VizWiz Grand Challenge比賽從2018年開始舉辦,旨在利用計算機視覺技術幫助有視覺障礙的盲人「看見」世界。設計
該任務的輸入是由盲人拍攝的圖像,輸出是圖像的描述。 orm
與其餘Image Caption數據不一樣,該比賽的數據是由視覺有障礙的盲人拍攝,圖像質量比較差,所以任務難度更高。
咱們以 CIDEr-D score 94.06的成績取得第一名,遠超第2名的 CIDEr-D score 71.98。
總分也超過去年冠軍 IBM 的CIDEr-D score 81.04。
該任務主要有兩個難點:
Image captioning須要視覺理解與文本生成,是視覺和NLP任務的結合,可應用於互聯網產品的內容標題自動生成,另外也能夠幫助盲人和視覺受損用戶提高他們對世界的感知能力。
Workshop:The Eight Workshop on Fine-Grained Visual Categorization
Task:fine-grained plant species identification
元年,蘭枻,琉瀟,有鄰,暖雨,濟宇,籬悠
大規模實例級物體識別
Herbarium 2021屬於 CVPR2021 FGVC8 workshop的一項比賽,該workshop針對實例級細粒度識別問題,已經連續舉辦第八屆。
Herbarium 2021 比賽數據集爲從多個大型植物園收集的美洲、大洋洲等半個地球的6.5W類2.5M張植物樣本圖片,用於訓練植物識別算法,輔助植物學家進行植物識別,發現和保護新物種。
該數據集存在長尾分佈,樣本數目最少的類別僅有3張樣本,同時,不一樣植物間視覺很是類似,同時同一植物的不一樣樣本有較大差別,給實例級識別帶來很大挑戰。
咱們以F1 score 0.757的成績在該項比賽上取得了第一名的成績,遠超第二名的0.735和第三名的 0.689。
該任務主要存在如下兩個難點:
將天然場景中實例級植物識別問題轉換成大規模細粒度特徵表達問題,提出self-attention pooling進行局部特徵加強提高特徵表達能力;經過引入Imbalanced Sampler和自適應類別loss解決類別分佈不平衡問題;此外,基於混合精度的大規模多機多卡訓練能力,實現近三百萬數據規模下的快速迭代能力。實現高效萬級在線難樣本挖掘,極大提高了特徵在複雜場景下的泛化能力。最終憑藉領先亞軍2.2%的優點,一舉得到冠軍。
實例級的細粒度識別技術可辨別物體間細微的視覺差別從而實現精細的物體識別,普遍應用於商品識別、動植物識別、行人識別、地標識別等領域。
▐ 賽事連接
1.Workshop:https://sites.google.com/view...
2.Challengehttps://sites.google.com/view...
3.Kaggle leadboard:https://www.kaggle.com/c/herb...
Workshop:International Challenge on Activity Recognition
Task:Home Action Genome Challenge
少麟,廖越(北航),詠亮,葉盈,籬悠,劉偲(北航)
視頻人物交互關係
Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop舉辦, 由斯坦福大學李飛飛教授課題組主辦,比賽提供了一個大規模多視角的視頻數據集,經過多模態視頻分析,檢測視頻中存在的人物交互關係。
咱們以準確率76.5%的成績在該項比賽上取得了第一名的成績,大幅領先第二名的68.4%和第三名的65.7%。
Home Action Genome Challenge 獲獎證書
該任務主要有3個難點:
採用更好的檢測模型:咱們採用Swin-Transformer和ResNeSt爲backbone的性能SOTA的檢測模型,並經過多種數據加強策略訓練和多尺度融合推理,提高目標檢測的準確率。
強化人物關係的視覺特徵:咱們設計了融合兩階段和一階段關係檢測網絡的方案,首先將Swin-Transformer融入兩階段關係檢測網絡進行端到端訓練,而後改進一階段關係檢測網絡,直接提取<人,物>二元組,再經過cascade結構斷定關係,給出<人,物,關係>三元組。策略上,咱們經過視覺特徵斷定動做關係,空間位置做爲輸入輔助斷定空間關係。
基於統計偏置的生成策略:咱們在生成最終的人物交互關係組時,採用了融合<人,物,關係>三者共生機率和統計偏置加權的多種策略。
視頻人物交互關係檢測,檢測視頻中動態的<人,物,關係>的結構化信息,將來可應用於視頻信息結構化,人機交互等應用場景。
除上述3項冠軍之外,咱們也在 Hotel-ID 2021-Hotel Recognition Challenge 比賽中取得第二名,以及在 Evoked Expressions from Videos (EEV) Challenge 比賽中取得第三名的好成績,在多媒體算法領域內排名前列。
淘系技術多媒體算法參賽團隊表示:「隨着視頻流量在媒體表徵方面佔比愈來愈高,視頻信息對我的和平臺而言,都存在信息過載的問題。視頻內容的多維度結構化表示將會是視覺領域的熱點研究方向之一。將來咱們也會融合文本、語音和視覺等多模態的信息作好視頻內容理解,讓用戶能夠更多看到本身喜歡的內容,下降用戶信息選擇的時間成本,爲用戶帶來更好的視覺體驗。」